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内 容 提 要 


本 书 是 一 部 UNIX 网 络 编程 的 经 典 之 作 ! 书 中 全 面 深入 地 介绍 了 如 何 使 用 套 接 字 API 进行 网 络 编程 。 
全 书 不 但 介绍 了 基本 编程 内 容 ， 还 涵盖 了 与 套 接 字 编 程 相关 的 高 级 主题 ， 对 于 客户 / 服务 器 程序 的 各 种 设 
计 方 法 也 作 了 完整 的 探讨 ， 最 后 还 深入 分 析 了 流 这 种 设备 驱动 机 制 。 

本 书 内 容 详尽 且 具 权威 性 ， 几 乎 每 章 都 提供 精 选 的 习题 ， 并 提供 了 部 分 习题 的 答案 ， 是 网 络 研究 和 开 
发 人 员 理 想 的 参考 书 。 
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本 书 的 第 ! 版 本 于 1990 年 问世 ， 并 迅速 成 为 程序 员 学 习 网 络 编程 的 权威 参考 书 。 时 至 今日 ， 
计算 机 网 络 技术 已 发 生 了 翻天 覆 地 的 变化 。 只 要 看 看 第 1 版 给 出 的 用 于 征集 反馈 意见 的 地 址 
(“uunetthsi!netbook”) 就 一 目 了 然 了 。( 有 多 少 读者 能 看 出 这 是 20 世 纪 80 年 代 很 流行 的 UUCP 拨 
号 网 络 的 地 址 ? ) 

现在 UUCP 网 络 已 经 很 罕见 了 ， 而 无 线 网 络 等 新 技术 则 变 得 无 处 不 在 ! 在 这 种 背景 下 ， 新 
的 网 络 协议 和 编程 范 型 业已 开发 出 来 ， 但 程序 员 却 苦于 找 不 到 一 本 好 的 参考 书 来 学 习 这 些 复杂 
的 新 技术 。 

这 本 书 填补 了 这 一 空白 ,拥有 本 书 旧 版 的 读者 一 定 想 要 一 个 新 的 版 本 来 学 习 新 的 编程 方法 ， 
了 解 IJPv6 等 下 一 代 协 议 方面 的 新 内 容 。 所 有 人 都 非常 期 待 本 书 ， 因 为 它 完 美 地 结合 了 实践 经 验 、 
历史 视角 以 及 在 本 领域 漫 淫 多 年 才能 获得 的 透彻 理解 。 

阅读 本 书 是 一 种 享受 ， 我 收获 颇 丰 。 相 信 大 家 定 会 有 同感 。 


Sam Leffler 
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概述 


本 书面 向 的 读者 是 那些 希望 自己 编写 的 程序 能 使 用 称 为 套 接 字 〈socket) 的 API 进 行 彼此 通 
信 的 人 。 有 些 读者 可 能 已 经 非常 熟悉 套 接 字 了 ， 因 为 这 个 模型 几乎 已 经 成 了 网 络 编程 的 同义词 ， 
但 有 些 读者 可 能 仍 需要 从 头 开 始 学 习 。 本 书 想 达到 的 目标 是 向 大 家 提供 网 络 编程 指导 。 这 些 内 
容 不 仅 适用 于 专业 人 士 ， 也 适用 于 初学 者 ;不 仅 适用 于 维护 已 上 有 代码， 也 适用 于 开发 新 的 网 络 
应 用 程序 ， 此 外 ， 还 适用 于 那些 只 是 想 了 解 一 下 自己 系统 中 网 络 组 件 的 工作 原理 的 人 。 

书 中 的 所 有 示例 都 是 在 Unix 系 统 上 测试 通过 的 真实 的 、 可 运行 的 代码 。 但 是 ， 考 虑 到 许多 
非 Unix 的 操作 系统 也 支持 套 接 字 API， 因 而 我 们 选取 的 示例 与 所 讲述 的 一 般 性 概念 ， 在 很 大 程 
度 上 是 与 操作 系统 无 关 的 。 几 乎 每 种 操作 系统 都 提供 了 大 量 的 网 络 应 用 程序 ， 如 网 页 浏览 器 、 
电子 邮件 客户 端 、 文 件 共享 服务 器 等 。 我 们 按 常 规 的 划分 方法 把 这 些 应 用 程序 分 为 客户 程序 和 
服务 器 程序 ， 并 在 书 中 多 次 编写 了 相应 的 小 型 示例 。 

面向 Unix 介 绍 网 络 编程 自然 免不了 要 介绍 Unix 本 身 和 TCP/IP 的 相关 背景 知识 。 需 要 更 详尽 
的 背景 知识 时 , 我 们 会 指引 读者 查阅 其 他 书籍 ,。 本 书 中 经 常 提 到 以 下 4 本 书 , 我 们 将 其 简 记 如 下 : 

e APUE: Advanced Programming in the UNIX Environment [Stevens 1992]; 

e TCPvl: TCP/IP Illustrated, Volume 1 [Stevens 1994]; 

e TCPv2: TCP/IP Illustrated, Volume 2 [Wright and Stevens 1995]; 

e TCPv3: TCP/IP Illustrated, Volume 3 [Stevens 1996]. 
其 中 TCPv2 包 含 了 与 本 书 内 容 密切 相关 的 细节 ， 它 描述 并 给 出 了 套 接 字 API 中 网 络 编程 函数 
(socket. bind. connect^$) 的 真实 4.4BSD 实 现 。 如 果 已 经 理解 某 个 特性 的 实现 ， 那 么 在 应 
用 程序 中 使 用 该 特性 就 更 有 意义 了 。 
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与 第 2 版 的 区 别 


从 20 世 纪 80 年 代 开 始 ， 套 接 字 就 差不多 是 现在 这 个 样子 了 。 时 至 今日 ， 套 接 字 仍然 是 网 络 
API 的 首选 ， 其 最 初 的 设计 的 确 值得 称道 。 因 此 ， 当 读者 发 现 我 们 对 出 版 于 1998 年 的 第 2 版 又 做 
了 不 少 改动 时 ， 可 能 会 觉得 惊讶 。 本 书 中 所 做 的 改动 归纳 如 下 。 
e 新 版 本 包含 了 IPv6 的 最 新 信息 。 在 第 2 版 出 版 时 ，IPv6 尚 处 于 草案 阶段 ， 这 些 年 来 已 经 有 
所 发 展 。 

e 更 新 了 全 部 函数 和 示例 的 描述 , 以 反映 最 新 的 POSIX 规 范 (POSIX 1003.1-2001), 即 Single 
Unix Specification Version 3。 

e 删 去 了 X/Open 传输 接口 (XTI〉 的 内 容 。 这 个 API 已 经 不 常用 了 ， 连 最 新 的 POSIX 规范 
也 不 再 提 到 。 
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e 删 去 了 事务 TCP 协 议 CT/TCPO. MA. 

e 新 增 了 三 章 用 于 描述 一 种 相对 较 新 的 传输 协议 一 一 SCTP。 这 个 可 靠 的 面向 消息 的 协议 能 
够 在 两 个 端点 之 间 提 供 多 个 流 ， 并 为 多 归属 技术 提供 传输 层 支持 。 该 协议 最 初 是 为 了 在 
因特网 上 传输 电话 信号 而 设计 的 ， 但 它 的 一 些 特性 可 以 用 于 许多 应 用 。 

e 新 增 一 章 描述 密 钥 管 理 套 接 字 ， 该 套 接 字 可 用 于 网 际 协议 安全 〈IPsec) 和 其 他 网 络 安全 
服务 。 

e. 第 2 版 中 使 用 的 机 器 及 Unix 变 体 都 按 最 新 版 本 更 新 ， 示 例 也 根据 机 器 的 特性 做 了 修改 。 
许多 情况 下 ， 修 改 示例 是 因为 操作 系统 厂商 修正 了 程序 缺陷 或 者 新 增 了 特性 。 但 读者 可 
以 想见 ， 新 的 缺陷 总 能 不 时 地 被 发 现 。 本 书 中 用 于 测试 示例 的 机 器 如 下 : 

m 运行 MacOS/X 10.2.6 的 Apple Power PC; 
= 运行 HP-UX lli 的 HP PA-RISC; 

w 运行 AIX 5.1 的 IBM Power PC; 

m 运行 FreeBSD 4.8 的 Intel x86: 

a 运行 Linux 2.4.7 的 Intel x86; 

m 运行 FreeBSD 5.1 的 Sun SPARC; 

= 运行 Solaris 9 的 Sun SPARC. 

这 些 机 器 的 具体 用 法 见 图 1-16。 

本 系列 的 第 2 卷 《UNIX 网 络 编程 352: 进程 间 通 信 》) 基于 本 卷 的 内 容 进一步 讨论 了 消息 

传道、 同步 、 共 享 内 存 及 远程 过 程 调 用 。 
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如 何 使 用 本 书 | 


本 书 既 可 以 作为 网 络 编程 的 教程 ， 也 可 以 作为 有 经 验 的 程序 员 的 参考 书 。 用 作 网 络 编程 的 
教程 或 入 门 级 教材 时 ， 重 点 应 放 在 第 二 部 分 (第 3 章 至 第 11 章 )， 然 后 可 以 看 看 其 他 感 兴趣 的 主 
题 。 第 二 部 分 包含 了 TCP 和 UDP 的 基本 套 接 字 函 数 ， 以 及 SCTP、UO 多 路 复 用 、 套 接 字 选项 和 基 
本 名 字 与 地 址 的 转换 。 所 有 读者 都 应 该 阅读 第 1 章 ， 尤 其 是 1.4 节 ， 介 绍 了 一 些 贯 穿 全 书 的 包 误 
函数 。 读 者 可 以 根据 自身 的 知识 背景 ， 选 读 第 2 章 ， 或 许 还 有 附录 A。 第 三 部 分 的 多 数 章节 可 以 
彼此 独立 地 进行 阅读 。 

为 了 方便 读者 把 本 书 作为 参考 书 ， 本 书 提供 了 完整 的 全 文 索引 ， 并 在 最 后 几 页 总 结 了 每 个 
函数 和 结构 的 详细 描述 在 正文 中 的 哪里 可 以 找到 。 为 了 给 不 按 顺 序 阅读 本 书 的 读者 提供 方便 ， 
我 们 在 全 书 中 为 相关 主题 提供 了 大 量 的 交叉 引用 。 
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源 代码 与 勘误 


书 中 所 有 示例 的 源 代码 可 以 从 www.unpbook.com 获 得 ”。 学 习 网 络 编程 的 最 好 方法 就 是 下 载 
这 些 程序 ， 对 其 进行 修改 和 改进 。 只 有 这 样 实际 编写 代码 才能 深入 理解 有 关 概 念 和 方法 。 每 章 
末尾 提供 了 大 量 的 习题 ， 大 部 分 在 附录 E 中 给 出 答案 。 

本 书 的 最 新 勘误 表 也 可 以 在 上 述 网 站 获取 。 








D 书 中 所 有 示例 的 源 代 码 也 可 以 从 图 灵 网 站 (www.turingbook.com〉 本 书 网 页 免费 注册 下 载 。 一 一 编者 注 
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1.4 概述 


要 编写 通过 计算 机 网 络 通信 的 程序 ， 首 先 要 确定 这 些 程序 相互 通信 所 用 的 协议 (protocol)。 
在 深入 设计 一 个 协议 的 细节 之 前 , 应 该 从 高 层次 决断 通信 由 哪个 程序 发 起 以 及 响应 在 何 时 产生 。 
举例 来 说 ， 一 般 认 为 Web 服 务 器 程序 是 一 个 长 时 间 运 行 的 程序 〈 即 所 谓 的 守护 程序 ，daemon )， 
它 只 在 响应 来 自 网 络 的 请 求 时 才 发 送 网 络 消息 。 协 议 的 另 一 端 是 Web 客 户 程 序 ， 如 某 种 浏览 器 ， 
与 服务 器 进程 的 通信 总 是 由 客户 进程 发 起 。 大 多 数 网 络 应 用 就 是 按照 划分 成 客户 (client) 和 服 
务 器 (server) "来 组 织 的 。 在 设计 网 络 应 用 8 时 ， 确 定 总 是 由 客户 发 起 请 求 往 往 能 够 简化 协议 和 
程序 " 本身。 当然 一 些 较为 复杂 的 网 络 应 用 还 需要 异步 回调 (asynchronous callback) 通信 ， 也 就 
是 由 服务 器 向 客户 发 起 请 求 消息 。 然 而 坚持 采纳 图 1-1 所 示 的 基本 客户 /服务 器 模型 的 网 络 应 用 


毕竟 要 普遍 得 多 。 


图 1-1 网 络 应 用 : 客户 和 服务 器 


通常 客户 每 次 只 与 一 个 服务 器 通信 ， 不 过 以 使 用 Web 浏 览 器 为 例 ， 我 们 也 许 在 10 分 钟 内 就 
可 以 与 许多 不 同 的 Web 服 务 器 通信 。 从 服务 器 的 角度 来 看 ， 一 个 服务 器 同时 与 多 个 客户 通信 并 
不 稀奇 ， 见 图 1-2。 本 书后 面 将 介绍 若干 种 让 一 个 服务 器 同时 处 理 多 个 客户 请 求 的 方法 。 

可 认为 客户 与 服务 器 之 间 是 通过 某 个 网 络 协议 通信 的 ， 但 实际 上 ， 这 样 的 通信 通常 涉及 多 
个 网 络 协议 层 。 本 书 的 焦点 是 TCP/IP 协 议 族 ， 也 称 为 网 际 协议 族 。 举 例 来 说 ，Web 客 户 与 服务 





O 本 书 英文 原文 通 篇 频繁 使 用 client (客户 ) 和 server (服务 器 ) 这 两 个 术语 。 实际 上 它们 的 具体 含义 随 上 下 文 而 
变化 , 有 时 指 静 态 的 源 程序 或 可 执行 程序 (客户 程序 和 服务 器 程序 ), 有 时 指 动态 进程 (客户 进程 和 服务 器 进程 )， 
有 时 指 运行 进程 的 主机 (客户 主机 和 服务 器 主机 )。 在 不 致 引起 混淆 的 前 提 下 ， 我 们 简单 地 称 客户 进程 为 客户 ， 
称 服 务 器 进程 为 服务 器 。 一 一 译 者 注 

@ AM (application) 这 个 术语 的 具体 含义 随 上 下 文 而 变化 ， 有 时 指 程序 〈 应 用 程序 )， 有 时 指 进程 《应 用 进程 )， 
有 时 作为 名 词性 修饰 词 译 为 应 用 。 本 书 有 时 把 同 处 应 用 层 的 客户 和 服务 器 对 也 用 应 用 表示 ， 我 们 称 之 为 应 用 系 
统 、 网 络 应 用 或 应 用 。 一 一 译 者 注 

© Unix RAPHA (program) 和 进程 (process) 是 在 系统 调用 exec 上 衔接 的 。 exec 既 可 以 由 shell 隐 式 调 用 〈 直 接 
输入 命令 行 执行 程序 属于 这 种 情况 ), 也 可 以 在 用 户 程序 中 显 式 调用 。 显 式 exec 调 用 执行 的 程序 在 本 书 中 称 为 新 
程序 ， 以 示 与 exec 调 用 所 在 程序 的 区 别 。exec 调 用 前 后 两 个 程序 实际 上 在 同一 个 进程 环境 下 执行 ， 不 过 往往 使 
用 新 程序 的 名 字 来 称呼 这 个 进程 . exec 调 用 往往 跟 在 某 个 forx 调 用 之 后 ， 这 样 新 程序 将 在 新 的 进程 环境 中 执行 。 
客户 程序 和 和 迭代 服务 器 程序 运行 时 通常 只 有 一 个 进程 ， 并 发 服务 器 程序 运行 时 除 主 进程 外 ， 通常 还 为 每 个 客户 
派生 一 个 进程 。 程 序 和 进程 的 密切 关系 使 得 两 者 有 时 相互 滩 透 使 用 ， 不 易 区 分 。 一 — 译 者 注 
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器 之 间 使 用 TCP (Transmission Control Protocol, 传输 控制 协议 ) 通 信 。TCP 又 转 而 使 用 IP (nternet 
Protocol， 网 际 协议 ) 通信 ，IP 再 通过 某 种 形式 的 数据 链 路 层 通 信 。 如 果 客 户 与 服务 器 处 于 同一 
个 以 太 网 ， 就 有 图 1-3 所 示 的 通信 层次 。 


二 | 以 太 网 “| 数据 链 路 层 
| 驱动 程序 






以 太 网 
图 1-3 ”客户 与 服务 器 使 用 TCP 在 同一 个 以 太 网 中 通信 


尽管 客户 与 服务 器 之 间 使 用 某 个 应 用 协议 通信 ， 传 输 层 却 使 用 TCP 通 信 。 注 意 ， 客 户 与 服 
务 器 之 间 的 信息 流 在 其 中 一 端 是 向 下 通过 协议 栈 的 ， 跨 越 网 络 后 ， 在 另 一 端 则 是 向 上 通过 协议 
栈 的。 另外 注意 ， 客 户 和 服务 器 通常 是 用 户 进程 ， 而 TCP 和 IP 协 议 通常 是 内 核 中 协议 栈 的 一 部 
分 。 我 们 在 图 1-3 右 边 标 出 了 4 个 层 。 

本 书 讨 论 的 协议 不 限于 TCP 和 IP。 有 些 客户 和 服务 器 改 用 UDP (User Datagram Protocol， 用 
户 数据 报 协议 ) 而 不 是 TCP， 第 2 章 将 详细 介绍 这 两 个 协议 。 此 外 ， 本 书 使 用 术语 “IP” 来 称谓 
的 那个 协议 ， 自 20 世 纪 80 年 代 早 期 以 来 一 直 在 使 用 ， 其 实 其 正式 名 称 是 IPv4 CIP version 4, IP 
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版 本 4)。IPv4 的 一 个 新 版 本 IPv6 CIP version 6，IP 版 本 6) 是 在 20 世 纪 90 年 代 中 期 开发 出 来 的 ， 
将 来 会 取代 IPv4。 本 书 既 讨论 使 用 IPv4 的 网 络 应 用 程序 的 开发 ， 也 讨论 使 用 IPv6 的 网 络 应 用 程 
序 的 开发 。 附 录 A 会 给 出 IPv4 和 IPv6 的 一 个 比较 ， 同 时 介绍 正文 中 将 讨论 的 其 他 协议 。 

同一 网 络 应 用 的 客户 和 服务 器 无 需 如 图 1-3 所 示人 处 于 同一 个 局 域 网 (local area network, 
LAN)。 例 如 ， 图 1-4 展 示 了 处 于 不 同 局 域 网 中 的 客户 和 服务 器 ， 而 这 两 个 局 域 网 是 使 用 路 由 器 


(router) 连接 到 广域网 (wide area network, WAN) 的 。 
应 用 进程 





图 1-4 ”处 于 不 同 局 域 网 的 客户 主机 和 服务 器 主机 通过 广域网 连接 


路 由 器 是 广域网 的 架构 设备 。 当 今 最 大 的 广域网 是 因特网 ”〈Internet)。 许 多 公司 也 构建 自 
己 的 广域网 ， 而 这 些 私 用 的 广域网 既 可 以 连接 到 因特网 ， 也 可 以 不 连接 到 因特网 。 

本 章 其 余部 分 将 概述 多 个 主题 ， 这 些 主题 在 后 续 章节 中 还 会 具体 介绍 。 我 们 从 一 个 尽管 简 
单 却 完整 的 TCP 客 户 程序 开始 ， 它 展示 了 全 书 都 会 遇 到 的 许多 函数 调用 和 概念 。 这 个 客户 程序 
只 能 在 IPv4 上 运行 ， 不 过 我 们 会 给 出 让 它 在 IPv6 上 运行 所 需 进行 的 修改 。 更 好 的 办 法 是 编写 独 
立 于 协议 的 客户 和 服务 器 程序 ， 这 在 第 11 章 中 会 讨论 。 本 章 同时 展示 一 个 与 该 TCP 客 户 程序 配 
合 工作 的 完整 的 TCP 服 务 器 程序 。 


QD intemet 一 词 有 多 种 含义 。 一 是 网 际 网 (intermet)， 采 用 TCP/IP 协 议 族 通信 的 任何 网 络 都 是 网 际 网 ， 因 特 网 就 是 一 
个 网 际 网 。 二 是 因特网 (Internet)， 它 是 一 个 专用 名 词 ， 特 指 从 ARPANET 发 展 而 来 的 连接 全 球 各 个 ISP 的 大 型 网 
际 网 。 三 是 作为 名 词性 修饰 词 , 这 时 应 根据 情况 分 别 译 成 “因特网 人 “网 际 网 "或 “网 际 "。 例如 ，Interet Protocol 
译 成 “网 际 协议 ”( 注 意 :“Internet Protocol” 是 “internet protocol” 一 词 名 词 专 用 化 的 结果 ); Intemet Society lil] 
译 成 “因特网 学 会 ” 应 注意 区 分 因特网 和 网 际 网 这 两 个 概念 : 因特网 只 有 一 个 , 为 了 确保 其 中 任何 一 个 节点 CE 
机 或 路 由 器 》 都 能 寻 址 到 ， 其 寻 址 规则 和 地 址 分 配方 案 是 全 球 统一 的 ;不 属于 因特网 的 网 际 网 却 可 以 为 其 中 的 
节点 任意 分 配 地 址 ， 辟 如 说 把 因特网 中 的 多 播 地 址 (224.0.0.0/4) 分 配 用 于 单 播 目 的 也 没有 问题 ， 因 为 地 址 属性 
( 单 播 、 多 播 、 广 播 、 回 馈 、 私 用 等 ) 是 额外 配置 到 TCP/IP 协 议 族 上 的 ， 并 非 TCP/IP 协 议 族 的 本 质 特征 ， 尽 管 实 
际 上 TCP/P 的 各 个 实现 几乎 - - 律 采用 因特网 的 寻 址 规则 。 虽 然 国内 权威 机 构 已 经 为 “Internet” 一 词 正 过 中 文 名 
(因特网 )， 许 多 文献 仍然 沿用 “互联 网 ”这 个 不 确切 的 名 称 。 互 联网 的 说 法 是 相对 内 联网 (intranet〉 而 言 的 ， 
后 者 特 指 使 用 因特网 私 用 地 址 寻 址 各 个 节点 的 网 际 网 ， 因 而 只 是 比较 特殊 的 网 际 网 。 一 一 译 者 注 
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为 了 简化 代码 ， 我 们 对 本 书 中 要 调用 的 大 多 数 系统 函数 定义 了 各 自 的 包 庄 函数 。 多 数 情况 LS] 
下 我 们 可 以 使 用 这 些 包 囊 函 数 来 检查 错误 ， 输 出 适当 的 消息 ， 以 及 在 出 错时 终止 程序 的 运行 。 
我 们 还 给 出 了 本 书 中 大 多 数 例子 所 用 的 测试 网 络 、 主 机 、 路 由 器 以 及 它们 的 主机 名 、IP 地 址 和 
操作 系统 。 
如 今 讨论 Unix 时 经 常 使 用 POSIX 一 词 , 它 是 一 种 被 多 数 厂 商 采 纳 的 标准 。 我 们 将 介绍 POSIX 
的 历史 以 及 它 对 本 书 所 讲述 的 API 的 影响 ， 并 介绍 该 领域 的 其 他 主要 标准 。 
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让 我 们 考虑 一 个 具体 的 例子 ， 引 入 将 在 本 书 中 遇 到 的 许多 概念 和 说 法 。 图 1-5 所 示 的 是 TCP 
当前 时 间 查 询 客户 程序 的 一 个 实现 。 该 客户 与 其 服务 器 建立 一 个 TCP 连 接 后 ， 服 务 器 以 直观 可 
读 格式 简单 地 送 回 当前 时 间 和 日 期 。 


oO intro/daytimetcpcli.c 








1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4( 
5 int sockfd, n; 
6 char recvline[MAXLINE + 1]; 
7 struct sockaddr in servaddr; 
8 if (argc != 2) 
9 err quit("usage: a.out «IPaddress»"); 
10 if ( (sockfd = socket(AF INET, SOCK STREAM, 0)) < 0) 
11 err_sys ("socket error"); 
12 bzero(&servaddr, sizeof(servaddr)); 
13 servaddr.sin family - AF INET; 
14 servaddr.sin port = htons(13); /* daytime server */ 
15 if (inet, pton(AF INET, argv[1], &servaddr.sin addr) «- 0) 
16 err quit("inet pton error for ts", argv[1]); 
17 if (connect(sockfd, (SA *) &servaddr, sizeof(servaddr)) < 0) 
18 err, sys("connect error"); 
19 wnile ( (n = read(sockfd, recvline, MAXLINE)) > 0) ( 
20 recvline[n] = 0; /* null terminate */ 
21 if (fputs(recvline, stdout) == EOF) 
22 err_sys("fputs error"); 
23 } 
24 if (n < 0) 
25 err Ssys("read error"); 
26 exit(0); 
27 ) 
—————— intro/daytimetcpcli.c 
图 1-5 TCP 时 间 获 取 客 户 程序 [s] 


这 就 是 本 书 用 于 展示 所 有 源 代 码 的 格式 . 每 个 非 空 行 都 被 编排 行 号 。 如 稍 后 所 示 ， 代 码 
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正文 讲解 部 分 一 开始 标注 该 段 代 码 起 始 与 结束 的 行 号 。 有 的 段落 会 以 一 个 简短 的 、 描 述 性 的 
醒目 标题 起 头 ， 对 所 讲解 代码 段 进 行 概 要 说 明 。 

每 个 源 代码 段 起 始 与 结束 处 的 水 平 线 标 出 了 该 代码 段 所 在 的 源 代码 文件 名 ， 对 于 本 例 就 
是 intro 目 录 下 的 daytimetcpcli.c 文 件 (intro/daytimetcpcli.c) 。 本 书 所 有 例子 的 
源 代 码 都 可 免费 获得 ( 见 前 言 ) ， 在 此 标注 它们 的 文件 名 便于 读者 找到 其 源 文件 。 在 阅读 本 
书 期 间 ， 编 译 、 运 行 特别 是 修改 这 些 程序 是 学 习 网 络 编程 概念 的 好 方法 .。 

整 本 书 中 我 们 随时 会 插入 缩 进 的 小 字号 段落 ( 如 此 处 所 示 ) 来 说 明 实 现 的 细节 和 历史 上 


的 观点 。 
如 果 编 译 该 程序 生成 默认 的 a.out 可 执行 文件 后 执行 它 ， 我 们 会 得 到 如 下 结果 : 
solaris $ a.out 206.168.112.96 我 们 的 输入 
Mon May 26 20:58:40 2003 程序 的 输出 


当 我 们 展示 交互 的 输入 和 输出 时 ， 输 入 总 是 采用 加 粗 的 等 宽 字 体 ， 而 计算 机 的 输出 总 是 
采用 不 加 粗 的 等 宽 字体 。 注 释 用 宋体 字 加 在 右边 ， 作 为 shell 提 示 一 部 分 的 系统 名 字 ( 本 例 中 
为 solaris ) 指明 在 哪个 主机 上 执行 该 命令 。 图 1-16 展 示 了 用 于 运行 本 书 中 大 多 数 例子 的 各 个 系 
统 ， 它 们 的 主机 名 本 身 通 常 就 说 明了 各 自 的 操作 系统 ， 


在 这 个 短 短 27 行 的 程序 中 有 许多 细节 值得 考虑 。 这 里 我 们 简短 地 提 一 下 ， 目 的 是 让 初次 遇 
到 网 络 程序 的 读者 有 所 准备 ， 本 书后 面 会 更 详细 地 说 明 这 些 内 容 。 
包含 头 文件 
1 包含 我 们 自己 编写 的 名 为 unp .h 的 头 文件 ， 见 D.1 节 。 该 头 文件 包含 了 大 部 分 网 络 程序 
都 需要 的 许多 系统 头 文件 ， 并 定义 了 所 用 到 的 各 种 常 值 ?( 如 MAXLINE)。 
命令 行 参数 
2-3 ”这 是 main 函 数 的 定义 ， 其 形式 参数 就 是 命令 行 参数 。 本 书 中 的 代码 假设 使 用 ANSI C 
编译 器 (也 称 为 ISO C 编 译 器 ) 编写 。 
创建 TCP 套 接 字 
10-11 ” socket 函数 创建 一 个 网 际 (AF_INET) 字 节 流 〈SocK_STREAM) 套 接 字 ， 它 是 TCP 套 接 
字 的 花哨 名 字 。 该 函数 返回 一 个 小 整数 描述 符 , 以 后 的 所 有 函数 调用 (如 随后 的 connect 
和 read) 就 用 该 描述 符 来 标识 这 个 套 接 字 。 


if 语句 包含 3 个 操作 : 调用 socket 函 数 ， 把 返回 值 赋 给 变量 sockfd， 再 测试 所 赋 的 这 个 
值 是 否 小 于 0。 虽 然 我 们 可 以 把 该 语句 分 割 成 两 条 C 语 向 : 


sockfd = socket (AF_INET, SOCK STREAM, 0); 
if (sockfd < 0) 


但 是 把 这 两 行 合并 成 一 行 却 是 常见 的 C 语 言 习惯 用 法 。 按照 C 语 言 的 优先 规则 ( 小 于 运算 符 的 
优先 级 高 于 赋值 运算 符 ) ， 函 数 调 用 和 赋值 语句 外 边 的 那 对 括号 是 必需 的 。 作 为 一 种 编码 风 
格 ， 作 者 总 是 在 这 样 的 两 个 左 括号 间 加 一 个 空格 ， 提 示 比 较 运算 的 左 侧 同时 也 是 一 个 赋值 运 
SL. (这 种 风格 借鉴 自 Minix 源 代码 [ Tenenbaum 1987 ]. ) 该 程序 稍 后 的 while 语 句 也 使 用 相 
同 的 样式 。 


(D 严格 地 说 ，C 语 言 中 用 #daefine 伪 命令 定义 的 对 象 称 为 常数 ， 用 const 限 定 词 定 义 并 初始 化 的 对 象 称 为 常量 ( 相 


对 于 变量 而 言 )。 常 数 的 值 在 编译 时 确定 ， 常 量 的 值 则 在 运行 时 初始 化 后 确定 〈 不 过 此 后 只 能 作为 右 值 使 用 )。 
本 书 绝 大 多 数 恒 定 值 是 用 #Gefine 定 义 的 常数 。 不 过 “常数 ”这 一 称谓 容易 让 人 狭义 地 理解 成 仅仅 是 数 而 已 ， 
因此 本 书 统一 使 用 “ 常 值 ” 指 代 其 值 恒定 不 变 的 对 象 。 一 一 译 者 注 
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后 面 我 们 将 遇 到 术语 套 接 字 (socket?) 的 许多 不 同 用 法 。 首 先 ， 我 们 正在 使 用 的 API 
称 为 套 接 字 API (sockets API)。 上 一 段 中 名 为 socket 的 函数 就 是 套 接 字 API 的 一 部 分 。 
上 一 段 中 我 们 还 提 到 了 “TCP 套 接 字 ”， 它 是 “TCP 端 点 ”(TCP endpoint) 的 同义词 。 
如 果 socket 函 数 调用 失败 ， 我 们 就 调用 自己 的 err_sys 函 数 放 弃 程 序 运 行 。err_sys 
函数 输出 我 们 作为 参数 提供 的 出 错 消息 以 及 所 发 生 的 系统 错误 的 描述 〈 例 如 出 自 
socket 函 数 的 可 能 错误 之 一 “Protocol not supported”( 协 议 不 受 支 持 ))， 然 后 终止 进 
程 。 这 个 函数 和 以 err_ 开 头 的 其 他 若干 个 函数 都 是 我 们 自行 编写 的 ， 它 们 的 调用 将 贯 
穿 全 书 ，D.3 节 会 描述 这 些 函 数 。 


指定 服务 器 的 IP 地 址 和 端口 


12~16 


我 们 把 服务 器 的 人 地 址 和 端口 号 填 入 一 个 网 际 套 接 字 地 址 结构 (一 个 名 为 servadar 的 
sockadqGr_in 结 构 变 量 )。 使 用 bzero 把 整个 结构 清 零 后 ， 置 地 址 族 为 AF_INET， 端 口号 
为 13 (这 是 时 间 获 取 服 务 器 的 众所周知 端口 ， 支 持 该 服务 的 任何 TCP/P 主 机 都 使 用 这 个 
端口 号 , 见 图 2-18), IP 地 址 为 第 一 个 命令 行 参数 的 值 (argv [1] )。 网 际 套 接 字 地 址 结构 
中 IP 地 址 和 端口 号 这 两 个 成 员 必 须 使 用 特定 格式 ,为 此 我 们 调用 库 函 数 htons (“主机 到 
网 络 短 整数 ”) 去 转换 二 进 制 端口 号 , 又 调用 库 函 数 inet_pton (“呈现 形式 到 数值 ”) 去 
把 ASCII 命 令 行 参数 (例如 运行 本 例子 所 用 的 206 .168.112.96) 转换 为 合适 的 格式 。 


bzero 不 是 一 个 ANSI C 函 数 。 它 起 源 于 早期 的 Berkeley 网 络 编程 代码 。 不 过 我 们 在 整 本 
书 中 使 用 它 而 不 用 ANSIC 的 memset 函 数 ， 因 为 bzero ( 带 2 个 参数 ) 比 memset ( 带 3 个 参数 ) 
更 好 记忆 。 几 乎 所 有 支持 套 接 字 API 的 厂商 都 提供 bzero， 如 果 没 有 ， 那 么 可 以 使 用 unp .h 头 
RAF PR BREAN, 

事实 上 ， 在 TCPv3 一 书 首次 印刷 时 ， 作 者 在 10 处 出 现 memset 函 数 的 地 方 犯 了 错 ， 互 换 了 
第 二 和 第 三 个 参数 。C 编 译 器 发 现 不 了 这 个 错误 ， 因 为 这 两 个 参数 的 类 型 是 相同 的 。 ( 其 实 
第 二 个 参数 是 int 类 型 ， 第 三 个 参数 是 size_t， 通 常 定义 为 unsigned int 类 型 ， 然 而 分 别 
指定 给 这 两 个 参数 的 值 为 0 和 16， 它 们 对 于 两 个 参数 的 类 型 同样 可 以 接受 。 ) 对 memset 的 这 
些 调用 仍然 正常 ， 不 过 没 做 任何 事 ， 因 为 待 初 始 化 的 字 节 数 被 指定 成 了 0. 程序 之 所 以 仍然 工 
作 是 因为 只 有 少数 套 接 字 函 数 要 求 网 际 套 接 字 地 址 结构 的 最 后 8 个 字 节 置 0。 无 论 如 何 ， 这 确 
实 是 一 个 错误 ， 且 是 一 个 通过 使 用 bzero 函 数 可 以 避免 的 错误 ， 因 为 如 果 使 用 函数 原型 ，C 
编译 器 总 能 发 现 bzero 的 两 个 参数 被 互 换 的 错误 。 

此 处 也 许 是 你 第 一 次 遇 到 inet_pPton 函 数 。 它 是 一 个 支持 IPv6 ( 详 见 附录 A ) 的 新 函数 。 
以 前 的 代码 使 用 inet_addr 函 数 来 把 ASCIL 点 分 十 进 制 数 事变 换 成 正确 的 格式 ， 不 过 它 有 不 
少 局 限 ， 而 这 些 局 限 在 inet_pton 中 都 得 以 纠正 。 如 果 你 的 系统 尚未 支持 该 函数 ， 那 你 可 以 
使 用 我 们 在 3.7 节 中 提供 的 它 的 一 个 实现 。 


建立 与 服务 器 的 连接 


17~18 


connect 函 数 应 用 于 一 个 TCP 套 接 字 时 , 将 与 由 它 的 第 二 个 参数 指向 的 套 接 字 地 址 结构 


O socket 一 词 译 者 认为 译 成 “ 套 接口 ”更 为 准确 ， 其 理由 如 下 。 首 先 ， 作 为 网 络 编程 API 之 一 的 套 接口 (sockets， 
注意 这 种 用 法 总 是 采用 复数 形式 ， 如 sockets API, sockets library 等 ) 跟 XTI 一 样 ， 是 应 用 层 到 传输 层 或 其 他 协议 
层 的 访问 接口 。 其 次 ， 具 体 使 用 的 套 接 口 是 与 Unix 管 道 的 某 一 端 类 似 的 东西 ， 我 们 既 可 以 往 这 个 “ 口 ” 写 数据 ， 
也 可 以 从 这 个 “ 口 ” 该 数据。 最 后 ， 赛 接口 函数 使 用 套 接 口 描述 字 〈discriptor) 访问 具体 的 套 接口 ， 如 果 把 套 
接口 描述 字 的 简称 sockfd 译 成 “ 套 接 字 ” 倒 比较 合适 。 从 这 个 意义 上 看 ， 一 个 套 接口 可 对 应 多 个 套 接 字 ， 因 为 
Unix 的 描述 字 既 可 以 复制 ， 也 可 以 继承 ; 反 过 来 ， 一 个 套 接 字 对 应 且 只 对 应 一 个 套 接口 。 但 是 ， 鉴 于 现在 socket 
广泛 被 接受 的 译 法 是 “ 套 接 字 ”， 所 以 本 书 亦 采用 了 “ 套 接 字 ” 的 诺 法 。 相 应 地 ，descriptor 也 采用 了 “描述 符 ” 


的 译 法 ， 而 未 坚持 译 为 “描述 字 ”。 一 一 编者 注 


8 $1* 简 介 


指定 的 服务 器 建立 一 个 TCP 连 接 。 该 套 接 字 地 址 结构 的 长 度 也 必须 作为 该 函数 的 第 三 个 
参数 指定 ， 对 于 网 际 套 接 字 地 址 结构 ， 我 们 总 是 使 用 C 语 言 的 sizeof 操 作 符 由 编译 器 
来 计算 这 个 长 度 。 
在 头 文件 unp.h 中 ， 我 们 使 用 #jdefine 把 SR 定义 为 struct sockaddr， 也 就 是 通用 套 接 
字 地 址 结构 。 每 当 一 个 套 接 字 函 数 需要 一 个 指向 某 个 套 接 字 地 址 结构 的 指针 时 ， 这 个 指针 必 
须 强 制 类 型 转换 成 一 个 指向 通用 套 接 字 地 址 结构 的 指针 . 这 是 因为 套 接 字 函 数 早 于 ANSIC 标 
准 , 20 世 纪 80 年 代 早 期 开发 这 些 函 数 时 , ANSIC 的 void * 指 针 类 型 还 不 可 用 .。 PMR “struct 
sockaddr” 长 达 15 个 字符 ， 往 往 造成 源 代码 行 超出 屏幕 〈《 或 者 书页 ， 若 是 排 印 在 书 上 ) HO 
边缘 ， 因 此 我 们 把 它 缩减 成 sa。 我 们 将 在 解释 图 3-3 时 详细 讨论 通用 套 接 字 地 址 结构 。 


读 入 并 输出 服务 器 的 应 答 


19-25 ”我 们 使 用 read 函 数 读 取 服务 器 的 应 答 ， 并 用 标准 的 IO 函数 fputs 输 出 结果 。? 使 用 TCP 
时 必须 小 心 ， 因 为 TCP 是 一 个 没有 记录 边界 的 字 节 流 协议 。 服 务 器 的 应 答 通 常 是 如 下 
格式 的 26 字 节 字 符 串 : 


Mon May 26 20:58:40 2003\r\n 
其 中 ，\r 是 ASCII 回 车 符 ，\n 是 ASCII 换 行 符 。 使 用 字 节 流 协议 的 情况 下 ， 这 26 个 字 节 
可 以 有 多 种 返回 方式 ; 既 可 以 是 包含 所 有 26 个 字 节 的 单个 TCP 分 节 2， 也 可 以 是 每 个 分 


(D 为 求 简洁 明确 ， 本 书 以 后 尽量 采用 直接 把 函数 名 或 C 语 言 关键 词 用 作 动 词 的 译 法 。 例如， 本 名 的 这 种 译 法 是 “我 
们 read 服 务 器 的 应 答 ， 并 fputs 结 果 。”; 又 如 :“ 如 果 connect 成 功 ， 那 就 break 出 循环 .。” 的 意思 是 :“ 如 果 
connect 函 数 调用 成 功 ( 表 示 连 接 成 功 )， 那 就 执行 C 语 言 的 break 语 句 跳 出 循环 。” 

O 计算 机 网 络 各 层 对 等 实体 间 交 换 的 单位 信息 称 为 协议 数据 单元 〈protocol data unit，PDU)， 分 节 (segment) 就 
是 对 应 于 TCP 传 输 层 的 PDU。 按 照 协 议 与 服务 之 间 的 关系 ， 除 了 最 低层 《物理 层 ) 外 ， 每 层 的 PDU 通 过 由 紧邻 
下 层 提 供给 本 层 的 服务 接口 ， 作 为 下 层 的 服务 数据 单元 (service data unit，SDU) 传递 给 下 层 ， 并 由 下 层 间 接 完 
成 本 层 的 PDU 交 换 。 如 果 本 层 的 PDU 大 小 超过 紧邻 下 层 的 最 大 SDU 限 制 ， 那 么 本 层 还 要 事先 把 PDU 划 分 成 若干 
个 合适 的 片段 让 下 层 分 开 载 送 ， 再 在 相反 方向 把 这 些 片 段 重 组 成 PDU。 同 ~-' 层 内 SDU 作 为 PDU 的 净 荷 (payload) 
字段 出 现 ， 因 此 可 以 说 上 层 PDU 由 本 层 PDU (通过 其 SDU 字 段 ) 承载 。 每 层 的 PDU 除 用 于 承载 紧邻 上 层 的 PDU 
( 即 承载 数据 ) 外， 也 用 于 承载 本 层 协议 内 部 通信 所 需 的 控制 信息 。 由 于 本 书 涉及 PDU 种 类 较 多 ， 为 避免 混淆， 
我 们 在 本 章 末 汇总 简要 说 明 。 

应 用 层 实 体 ( 如 客户 或 服务 器 进程 》 间 交换 的 PDU 称 为 应 用 数据 (application data)， 其 中 在 TCP 应 用 进程 之 
间 交 换 的 是 没有 长 度 限制 的 单个 双向 字 节 流 , 在 UDP 应 用 进程 之 问 交 换 的 是 其 长 度 不 超过 UDP 发 送 缓冲 区 大 小 的 
单个 记录 〈record)， 在 SCTP 应 用 进程 之 间 交 换 的 是 没有 总 长 度 限 制 的 单个 或 多 个 双向 记录 流 。 传 输 层 实体 〈 例 
如 对 应 某 个 端口 的 传输 层 协议 代码 的 一 次 运行 ) 间 交换 的 PDU 称 为 消息 (message)， 其 中 TCP 的 PDU 特 称 为 分 节 
(segment)。 消 息 或 分 节 的 长 度 是 有 限 的 。 在 TCP 传 输 层 中 ， 发 送 端 TCP 把 来 自 应 用 进程 的 字 节 流 数据 〈 即 由 应 用 
进程 通过 一 次 次 输出 操作 写 出 到 发 送 端 TCP 套 接 字 中 的 数据 〉 按 顺序 经 分 割 后 封装 在 各 个 分 区 中 传送 给 接收 端 
TCP， 其 中 每 个 分 节 所 封装 的 数据 既 可 能 是 发 送 端 应 用 进程 单 次 输出 操作 的 结果 ， 也 可 能 是 连续 数 次 输出 操作 的 
结果 ， 而 且 每 个 分 节 所 封装 的 单 次 输出 捞 作 的 结果 或 者 首尾 师 次 输出 操作 的 结果 既 可 能 是 完整 的 ， 也 可 能 是 不 完 
整 的 ， 具 体 取决 于 可 在 连接 建立 阶段 由 对 端 通 告 的 最 大 分 节 大 小 (maximum segment size, MSS) 以 及 外 出 接口 
的 最 大 传输 单元 (maximum transmission unit, MTU) 或 外 出 路 径 的 路 径 MTU〈( 如 果 网 络 层 上 共有 路 径 MTU 发 现 功 
fe, 如 IPv6)。 分 节 除 了 用 于 承载 应 用 数据 外 , 也 用 于 建立 连接 (SYN 分 节 )、 终止 连接 CRINGE). 中止 连接 (RST 
分 节 )、 确 认 数 据 接收 (ACK 分 节 )、 副 送 待 发 数据 〔PSH 分 节 ) 和 携带 紧急 数据 指针 “URG 分 节 )， 而 且 这 些 功 
能 (包括 承载 数据 ) 可 以 灵活 组 合 。UDP 传 输 层 相当 简单 ， 发 送 端 UDP 就 把 来 自 应 用 进程 的 单个 记录 整个 封装 在 
UDP 消息 中 传送 给 接收 端 UDP。SCTP 引 入 了 称 为 块 (chunk) 的 数据 单元 ，SCTP 消 息 就 由 一 个 公共 首部 加 上 上 一 个 
或 多 个 块 构成 ， 公共 首部 类 似 UDP 消 息 的 首部 ， 仅 仅 给 出 源 目 的 端口 号 和 整个 SCTP 消 息 的 校 验 和 ; 块 则 既 可 以 
承载 数据 ( 称 为 DATA 块 ), 也 可 以 承载 控制 信息 ( 计 有 SACK 块 .INIT 块 .INITACK 块 .COOKIE ECHO, COOKIE 
ACK 块 .SHUTDOWN 块 .SHUTDOWN ACK 块 . SHUTDOWN COMPLETE 块 、.ABORT 块 .ERROR 块 .HEARTBEAT 
块 和 HEARTBEAT ACK 块 ， 总 称 为 控制 块 )。 发 送 端 SCTP 把 来 自 应 用 进程 的 〈-- 个 或 多 个 ) 记录 流 数据 按照 流 内 
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节 只 含 1 个 字 节 的 26 个 TCP 分 节 ， 还 可 以 是 总 共 26 个 字 节 的 任何 其 他 组 合 。 通 常服 务 器 
返回 包含 所 有 26 个 字 节 的 单个 分 节 ， 但 是 如 果 数 据 量 很 大 ， 我 们 就 不 能 确保 一 次 reaa 
调用 能 返回 服务 器 的 整个 应 答 。 因 此 从 TCP 套 接 字 读 取 数 据 时 ， 我 们 总 是 需要 把 reaq 
编写 在 某 个 循环 中 ， 当 read 返 回 0 (表明 对 端 关 闭 连接 ) 或 负 值 (表明 发 生 错误 ) 时 终 
止 循环 。 
本 例 中 ， 服务器 关闭 连接 表征 记录 的 结束 。HTTP (Hypertext Transfer Protocol， 超 文本 
传送 协议 ) 的 1.0 版 本 也 采用 这 种 技术 。 还 可 以 用 其 他 技术 标记 记录 结束 。 例如 ，SMTP 
(Simple Mail Transfer Protocol， 简 单 邮件 传送 协议 ) 使 用 由 ASCII 回 车 符 后 跟 换行 符 构 
成 的 2 字 节 序列 标记 记录 的 结束 ; Sun 远 程 过 程 调用 (Remote Procedure Call, RPC) 以 
及 域名 系统 (Domain Name System，DNS) 在 使 用 TCP 承 载 应 用 数据 时 ， 在 每 个 要 发 
送 的 记录 之 前 放置 一 个 二 进 制 的 计数 值 , 给 出 这 个 记录 的 长 度 。 这 里 的 重要 概念 是 TCP 
本 身 并 不 提供 记录 结束 标志 : 如 果 应 用 程序 需要 确定 记录 的 边界 ， 它 就 要 自己 去 实现 ， 
已 有 一 些 常用 的 方法 可 供 选 择 。 
终止 程序 

26 ， exit 终止 程序 运行 。Unix 在 一 个 进程 终止 时 总 是 关闭 该 进程 所 有 打开 的 描述 符 ， 我 们 
的 TCP 套 接 字 就 此 被 关闭 。 

刚才 已 提 过 ， 本 书后 面 会 对 刚才 讲述 的 所 有 概念 深入 进行 探讨 。 
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图 1-$ 中 的 程序 是 与 IPv4 协 议 相 关 的 : 我 们 分 配 并 初始 化 一 个 sockaadqr_in 类 型 的 结构 ， 把 
该 结构 的 协议 族 成 员 设 置 为 AF_INET， 并 指定 socket 函 数 的 第 一 个 参数 为 AF_INET。 








顺序 和 记录 边界 封装 在 各 个 DATA 块 中 ， 并 在 DATA 块 首部 记 上 各 自 的 流 ID。 一 个 记录 通常 对 应 一 个 DATA 块 ， 对 
于 过 长 的 记录 ， 发 送 端 SCTP 既 可 以 像 UDP 那 样 拒绝 发 送 ， 也 可 以 把 它们 拆 分 到 多 个 DATA 块 中 以 便 发 送 ， 接 收 端 
SCTP 收 到 后 把 它们 组 合成 单个 记录 上 传 。 作 为 传输 层 PDU 的 SCTP 消 息 既 可 以 只 包含 单个 块 (DATA 块 或 控制 块 )， 
也 可 以 在 接口 MTU 或 路 径 MTU 的 限制 下 包含 多 个 块 〈 称 为 块 的 捆绑 ， 控 制 块 在 前 ，DATA 块 在 后 )， 不 过 INIT 块 、 
INITACK 块 和 SHUTDOWN COMPLETE 块 不 能 跟 任 何其 他 块 捆绑 。SCTP 收 发 两 端 均 独 立 处 理 捆绑 在 同一 个 消息 
中 的 各 个 块 ， 鉴 于 此 ， 我 们 可 以 直接 把 块 作为 传输 层 PDU 看 待 ， 本 书 也 往往 这 么 使 用 。 

网 络 层 实体 间 交 换 的 PDU 称 为 PP 数据 报 (IP datagram), IKEA: IPv4 数 据 报 最 大 65 535 字 节 ，IPv6 数 
据 报 最 大 65 575 字 节 。 发 送 端 卫 把 来 自传 输 层 的 消息 (或 TCP 分 节 ) 整个 封装 在 IP 数 据 报 中 传送 。 链 路 层 实体 间 
交换 的 PDU 称 为 帧 frame)， 其 长 度 取决 于 具体 的 接口 。IP 数 据 报 由 了 首部 和 所 承载 的 传输 层 数 据 〈 即 网 络 层 的 
SDU) 构成 。 过 长 的 下 数 据 报 无 法 封装 在 单个 帧 中 ， 需 要 先 对 其 SDU 进 行 分 片 〈fragmentation)， 再 把 分 成 的 各 
个 片段 (fragment) 冠 以 新 的 IP 首 部 封装 到 多 个 帧 中 。 在 一 个 下 数据 报 从 源 端 到 目的 端的 传送 过 程 中 ， 分 片 操作 
既 可 能 发 生 在 源 端 ， 也 可 能 发 生 在 途中 ， 而 其 逆 操 作 即 重组 (reassembly) 一 般 只 发 生 在 日 的 端 ， SCTP 为 了 传 
送 过 长 的 记录 采取 了 类 似 的 分 片 和 重组 措施 。TCP/IP 协 议 族 为 提高 效率 会 尽 可 能 避免 [的 分 片 /重组 操作 : TCP 
根据 MSS 和 MTU 限 定 每 个 分 节 的 大 小 以 及 SCTP 根 据 MTU 分 片 /重组 过 长 记录 都 是 这 个 目的 (SCTP 的 块 捆绑 则 是 
为 了 在 避免 记分 片 / 重 组 操作 的 前 提 下 提高 块 传输 效率 );， 另外 ，IPv6 禁 止 在 途中 的 分 片 操 作 ( 基 于 其 路 径 MTU 
发 现 功 能 )，IPv4 也 尽量 避免 这 种 操作 。 不 论 是 否 分 片 ， 都 由 于 作为 链 路 层 的 SDU 传 入 链 路 层 ， 并 由 链 路 层 封装 
在 帧 中 的 数据 称 为 分 组 〈packet， 俗 称 包 )。 可 见 一 个 分 组 既 可 能 是 一 个 完整 的 IP 数 据 报 ， 也 可 能 是 某 个 了 数据 
报 的 SDU 的 一 个 片段 被 冠 以 新 的 了 首部 后 的 结果 。 另 外 ， 本 书 中 讨论 的 MSS 是 应 用 层 CTCP) 与 传输 层 之 间 的 
接口 属性 ，MTU 则 是 网 络 层 和 链 路 层 之 间 的 接口 属性 。 

上 述 讨论 参见 RFC 1122、RFC 793、RFC 768、RFC 3286、RFC 2960 和 本 书 2.11 节 、7.9 节 。 另 外需 注意 的 是 ， 
SCTP H fi RÆ FARR AFA (proposed standard) 阶段 ， 尚 未 进入 能 够 被 多 数 厂商 采纳 并 实现 的 草案 标准 《draft 
standard) 阶段 ， 更 没有 像 TCP 和 UDP 那样 历经 考验 而 成 为 因特网 标准 〔 分 配 STD 号 )。 一 - 译 者 注 
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为 了 让 图 1-5 中 的 程序 能 够 在 IPv6 上 运行 ， 我 们 必须 修改 这 段 代码 。 图 1-6 所 示 的 是 一 个 能 
够 在 IPv6 上 运行 的 版 本 ， 其 中 改动 之 处 用 加 粗 的 等 宽 字体 突出 显示 。 





intro/daytimetcpcliv6.c 

1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4t 
5 int sockfd, n; 
6 char recvline[MAXLINE + 1]; 
7 struct Sockaddr in6 servaddr; 
8 if (argc !- 2) 
9 err quit("usage: a.out «IPaddress»"); 
10 if ( (sockfd = socket (AF_INET6, SOCK STREAM, 0)) < 0) 
11 err sys("socket error"); 
12 bzero(&servaddr, sizeof(servaddr)); 
13 servaddr.sin6 family = AF INET6; 
14 Servaddr.sin6 port - htons(13); /* daytime server */ 
15 if (inet pton(AF INET6, argv[1], &servaddr.sin6_addr) <= 0) 
16 err quit("inet pton error for $s", argv(1]); 
17 if (connect(sockfd, (SA *) &servaddr, sizeof(servaddr)) « 0) 
18 err sys("connect error"); 
19 while ( (n = read(sockfd, recvline, MAXLINE)) > 0) ( 
20 recvline[n] - 0; /* null terminate */ 
21 if (fputs(recvline, stdout) -- EOF) 
22 err sys("fputs error"); 
23 } 
24 if (n « 0) 
25 err sys("read error"); 
26 exit(0); 
27 ) 

~~ intro/daytimetcpcliv6.c 





图 1-6 ”适合 于 IPv6 的 图 1-5 所 示 程 序 的 修改 版 


我 们 只 修改 了 程序 的 5 行 代 码 ,， 得 到 的 却 是 另 一 个 与 协议 相关 的 程序 : 这 回 是 与 IPv6 协 议 相 
关 的 。 更 好 的 做 法 是 编写 协议 无 关 的 程序 。 图 11-11 将 给 出 本 客户 程序 的 协议 无 关 版 本 ， 它 使 用 
Tgetaddrinfomt (由 tcp_connect 函 数 调用 )。 

这 两 个 程序 的 另 一 个 不 足 之 处 是 : 用 户 必须 以 点 分 十 进 制 数 格式 给 出 服务 器 的 下 地 址 (如 
适合 于 IPv4 版 本 的 206.168.112.219)。 人 们 更 习惯 于 用 名 字 ( 如 www.unpbook.com) 来 代替 数字 。 
我 们 将 在 第 11 章 中 讨论 主机 名 与 IP 地 址 之 间 以 及 服务 名 与 端口 之 间 的 转换 函数 。 我 们 特意 推迟 
讨论 这 些 函 数 ， 在 第 11 章 之 前 继续 使 用 IP 地 址 和 端口 号 ， 目 的 是 了 解 我 们 必须 填写 和 查看 的 套 
接 字 地 址 结构 的 细节 ， 和 避免 被 男 一 个 函数 集 的 细节 把 网 络 编程 的 讨论 搞 复杂 了 。 
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任何 现实 世界 的 程序 都 必须 检查 每 个 函数 调用 是 否 返 回 错误 。 在 图 1-5 所 示 的 程序 中 ,我们 
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检查 socket 、inet_pton、connect、read 和 fputs 函 数 是 否 返 回 错误 ， 当 发 生 错 误 时 ， 就 调 
用 我 们 自己 的 err_quit 或 err_sys 函 数 输出 一 个 出 错 消 息 并 终止 程序 的 运行 。 我 们 发 现 绝 大 多 
数 情况 下 这 正 是 我 们 想 做 的 事 。 个 别 情况 下 ， 当 这 些 函 数 返回 错误 时 ， 我 们 想 做 的 事 并 非 简 单 
地 终止 程序 的 运行 ， 如 图 5-12 所 示 ， 我 们 必须 检查 系统 调用 是 否 被 中 断 了 。 

既然 发 生 错误 时 终止 程序 的 运行 是 普遍 的 情况 ， 我 们 可 以 通过 定义 包 训 函数 (wrapper 
function) 来 缩短 程序 。 每 个 包 训 函数 完成 实际 的 函数 调用 ， 检 查 返 回 值 ， 并 在 发 生 错误 时 终止 
进程 。 我 们 约定 包 囊 函数 名 是 实际 函数 名 的 首 字母 大 写 形式 。 例 如 ， 在 语句 


Sockfd = Socket(AF INET, SOCK STREAM, 0); 


中 ， 函 数 sSocket 是 函数 socket 的 包 庄 函数 ， 如 图 1-7 所 示 。 





lib/wrapsock.c 
236 int 
237 Socket(int family, int type, int protocol) 
238 ( 
239 int n; 
240 if ( (n = socket (family, type, protocol)) < 0) 
241 err sys("socket error"); 
242 return (n); 
243 ) 

lib/wrapsock.c 


图 1-7 socket BR% hI RUE A 


在 本 书 中 只 要 你 遇 到 一 个 首 字 母 大 写 的 函数 名 ， 它 就 是 我 们 定义 的 某 个 包 训 函数 。 它 调用 
的 实际 函数 的 名 字 与 包 囊 函数 名 相同 ， 不 过 以 对 应 的 小 写字 母 开 头 。 

然而 在 讲解 本 书 中 提供 的 源 代码 时 , 我们 总 是 指称 被 调用 的 最 低级 别 的 函数 (如 socket ), 
而 不 是 包 训 函数 (如 Socket ). 


这 些 包 囊 函数 不 见得 多 节省 代码 量 ， 但 当 我 们 在 第 26 章 中 讨论 线程 时 ， 将 会 发 现 线程 函数 
遇 到 错误 时 并 不 设置 标准 Unix 的 errno 变 量 , 而 是 把 errno 的 值 作为 函数 返回 值 返回 调用 者 。 这 
意味 着 每 次 调用 以 pthread_ 开 头 的 某 个 函数 时 ， 我 们 必须 分 配 一 个 变量 来 存放 函数 返回 值 ， 以 
便 在 调用 err_sys 前 把 errno 变 量 设置 成 该 值 。 为 避免 引入 花 括号 把 代码 弄 得 很 混乱 ,我们 可 以 
使 用 C 语 言 的 去 号 操作 符 ， 把 errno 的 赋值 与 err_sys 的 调用 组 合成 一 条 语句 ， 如 下 所 示 : 


int n; 
if ( (n = pthread mutex lock(&ndone mutex)) !- 0) 
errno = n, err, sys("pthread mutex lock error"); 
我 们 也 可 以 为 此 定义 一 个 新 的 错误 处 理 函 数 ， 它 取 系 统 的 错误 号 作为 一 个 参数 ， 不 过 通过 
定义 如 图 1-8 所 示 的 包 囊 函数 ， 我 们 可 以 让 以 上 这 段 代 码 更 为 易 读 : 


Pthread_mutex_lock (&ndone_mutex) ; 


EAT BRECK MH, AUD TVAE ERR GK, Min FAM Rie HR, S 
IL RBS UT AE RHP HE. 

选择 首 字 母 大 写 一 个 函数 名 作为 其 包 训 函数 名 是 一 种 折 中 的 方法 。 其 他 方法 也 考虑 过 ， 
壁 如 给 函数 名 加 一 个 “e” 前 缓 (如 [ Kernighan and Pike 1984] 一 书 第 182 页 所 示 ) ， 给 函数 
名 加 一 个 “_e” 后 级 ， 等 等 。 这 些 方法 都 能 明显 地 提示 调用 了 其 他 函数 ， 但 我 们 的 这 种 风格 
看 来 是 最 少 分 散 注意 力 的 ， 
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这 种 技术 还 有 助 于 检查 那些 错误 返回 值 通常 被 忽略 的 函数 是 否 出 错 ， 例 如 close 和 





listen. 

———— —————— — lib/wrappthread.c 
72 void 
73 Pthread mutex lock(pthread mutex t *mptr) 
74 ( 
75 int n; 
76 if ( (n = pthread mutex lock(mptr)) == 0) 
77 return; 
78 errno = n; 
79 err sys("ptnread mutex lock error"); 
80 ) 

lib/wrappthread.c 


图 1-8 pthread_mutex_lockHJ wR 


本 书后 面 的 例子 中 ， 除 非 必 须 检查 某 个 确定 的 错误 是 否 发 生 ， 并 以 不 同 于 终止 进程 的 其 他 
某 种 方式 处 理 它 ， 否 则 就 使 用 这 些 包 里 函数 。 书 中 不 提供 所 有 包 囊 函数 的 源 代码 ， 不 过 它们 是 
可 以 免费 获得 的 〈 见 前 言 )。 


Unix errno 值 


只 要 一 个 Unix 函 数 〈 例 如 某 个 套 接 字 函数 ) 中 有 错误 发 生 ， 全 局 变量 errno 就 被 置 为 一 个 
指明 该 错误 类 型 的 正 值 , 函数 本 身 则 通常 返回 -1。err_sys 查 看 errno 变 量 的 值 并 输出 相应 的 出 
错 消 息 ， 例 如 当 errno 值 等 于 ETIMEDOUT 时 ， 将 输出 “Connection timed out”( 连 接 超时 )。 

errno 的 值 只 在 函数 发 生 错误 时 设置 。 如 果 函 数 不 返 回 错误 , errno 的 值 就 没有 定义 。 errno 
的 所 有 正 数 错误 值 都 是 常 值 ， 具 有 以 “E” 开 头 的 全 大 写字 和 母 名 字 ， 并 通常 在 <sys/errno.n> 
头 文件 中 定义 。 值 0 不 表示 任何 错误 。 

在 全 局 变量 中 存放 errno 值 对 于 共享 所 有 全 局 变量 的 多 个 线程 并 不 适合 。 我 们 将 在 第 26 章 
中 讲述 解决 这 一 问题 的 方法 。 

全 书 中 我 们 将 使 用 诸如 “connect 函 数 返回 ECONNREFUSED” 这 样 的 句子 简明 表达 以 下 意思 : 
该 函数 返回 一 个 错误 (通常 函数 返回 值 为 -1)， 同 时 errno 被 置 为 指定 的 常 值 。 


ee en 


我 们 可 以 编写 一 个 简单 的 TCP 时 间 获 取 服 务 器 程序 ， 它 和 1.2 节 中 的 客户 程序 一 道 工 作 。 
1-9 给 出 了 这 个 服务 器 程序 ， 它 使 用 了 上 一 节 中 讲 过 的 包 训 函数 。 
创建 TCP 套 接 字 


10 ”TCP 套 接 字 的 创建 与 客户 程序 相同 。 
把 服务 器 的 众所周知 端口 捆绑 到 套 接 字 


11-15 ”通过 填写 一 个 网 际 套 接 字 地 址 结构 并 调用 bina 函 数 ， 服 务 器 的 众所周知 端口 (对 于 时 
间 获 取 服 务 是 13) 被 捆绑 到 所 创建 的 套 接 字 。 我 们 指定 IP 地 址 为 INADDR_ANY， 这 样 要 
是 服务 器 主机 有 多 个 网 络 接口 ， 服 务 器 进程 就 可 以 在 任意 网 络 接口 上 接受 客户 连接 。 
以 后 我 们 将 了 解 怎样 限定 服务 器 进程 只 在 单个 网 络 接口 上 接受 客户 连接 。 
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intro/daytimetcpsrv.c 

1 #include "unp.h" 
2 #include «time.h» 
3 int 
4 main(int argc, char **argv) 
5 { 
6 int listenfd, connfd; 
7 struct sockaddr in servaddr; 
8 char buff [MAXLINE] ; 
3 time_t ticks; 
10 listenfd = Socket (AF_INET, SOCK STREAM, 0); 
11 bzero(&servaddr, sizeof(servaddr)); 
12 servaddr.sin family - AF INET; 
13 servaddr.sin, addr.s, addr = htonl(INADDR ANY); 
14 servaddr.sin port = htons(13); /* daytime server */ 
15 Bind(listenfd, (SA *) &servaddr, sizeof (servaddr)); 
16 Listen(listenfd, LISTENQ); 
17 for (33) 0 
18 connfd = Accept(listenfá, (SA *) NULL, NULL); 
19 ticks = time(NULL); 
20 snprintf(buff, sizeof(buff), "%.24s\r\n", ctime(&ticks)); 
21 Write(connfd, buff, strlen(buff)); 
22 Close (conntd); 
23 J 
24 

-——— intro/daytimetcpsrv.c 


图 1-9 TCP 时 间 获 取 服 务 器 程序 


把 套 接 字 转 换 成 监听 套 接 字 
ie ”调用 listen 函 数 把 该 套 接 字 转换 成 一 个 监听 套 接 字 ， 这 样 来 自 客户 的 外 来 连接 就 可 在 
该 套 接 字 上 由 内 核 接 受 。socket 、bind 和 1isten 这 3 个 调用 步骤 是 任何 TCP 服 务 器 准 
备 所 谓 的 监听 描述 符 listening descriptor， 本 例 中 为 1istenfa) 的 正常 步 又 。 
常 值 LISTENQ 在 我 们 的 unp .h 头 文件 中 定义 。 它 指定 系统 内 核 允 许 在 这 个 监听 描述 符 上 
排队 的 最 大 客户 连接 数 。 我 们 将 在 4.5 节 详细 说 明 客 户 连 接 的 排队 。 
接受 客户 连接 ， 发 送 应 答 
17-21 通常 情况 下 ， 服 务 器 进程 在 accept 调 用 中 被 投入 睡眠 ， 等 待 某 个 客户 连接 的 到 达 并 被 
内 核 接受 。TCP 连 接 使 用 所 谓 的 三 路 握手 (three-way handshake) 来 建立 连接 。 握 手 完 
毕 时 accept 返 回 ， 其 返回 值 是 一 个 称 为 已 连接 描述 符 (connected descriptor) 的 新 描述 
符 〈 本 例 中 为 connfa)。 该 描述 符 用 于 与 新 近 连 接 的 那个 客户 通信 。accept 为 每 个 连 
接 到 本 服务 器 的 客户 返回 一 个 新 描述 符 。 
本 书 全 文采 用 的 无 限 循 环 采 用 以 下 风格 : 
for 人 


) 
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当前 时 间 和 日 期 是 由 库 函 数 time 返 回 的 ， 它 实际 上 返回 的 是 自 Unix 纪 元 即 1970 年 1 月 1 日 0 
点 0 分 0 秒 〈 国 际 标准 时 间 ) 以 来 的 秒 数 。 下 一 个 库 函 数 ctime 把 该 整数 值 转换 成 直观 可 读 的 时 
间 格 式 ， 例 如 ; 

Mon May 26 20:58:40 2003 
snprintf 函 数 在 这 个 字符 串 末尾 添加 一 个 回 车 符 和 一 个 回 行 符 ， 随 后 write 函数 把 结果 字符 串 
写 给 客户 。 


oR HRD RAA snprint RARE M sprinth HR, 那么 现在 是 学 习 的 时 候 了 . W 
用 sprincf 无 法 检查 目的 缓冲 区 是 否 溢出 . 相反 ，snprintf 要 求 其 第 二 个 参数 指定 目的 缓冲 
区 的 大 小 ， 因 此 可 确保 该 缓冲 区 不 溢出 。 

snprintf 相 对 较 晚 才 加 到 ANSIC 标 准 中 ， 在 称 为 ISO C99 的 版 本 中 引入 。 不 过 几乎 所 有 
厂商 都 把 它 作 为 标准 C 函 数 库 的 一 部 分 提供 ， 而 且 另 有 许多 免费 可 得 的 版 本 可 用 。 我 们 贯穿 
全 书 使 用 snprintf， 也 推荐 你 出 于 可 靠 性 考虑 在 自己 的 程序 中 改 用 它 来 代替 sprintf。 

值得 注意 的 是 ， 许 多 网 络 入 侵 是 由 黑客 通过 发 送 数 据 ， 导 致 服务 器 对 sprintf 的 调用 使 
其 缓冲 区 溢出 而 发 生 的 。 必 须 小 心 使 用 的 函数 还 有 gets、strcat 和 strcpy， 通 常 应 分 别 改 
为 调用 fgets、strncat 和 strncpy。 更 好 的 替代 函数 是 后 来 才 引 入 的 strlcat 和 strlcpy， 
它们 确保 结果 是 正确 终止 的 字符 串 . 编 写 安 全 的 网 络 程序 的 更 多 技巧 参见 [ Garfinkel, Schwartz, 
and Spafford 2003 ] 的 第 23 章 . 


终止 连接 

22 ”服务 器 通过 调用 close 关 闭 与 客户 的 连接 。 该 调用 引发 正常 的 TCP 连 接 终止 序列 : 每 个 
方向 上 发 送 一 个 FIN， 每 个 FIN 又 由 各 自 的 对 端 确认 。2.6 节 将 详细 讲述 TCP 的 三 路 握手 
和 用 于 终止 一 个 TCP 连 接 的 4 个 TCP 分 组 。 

与 上 节 查 看 客户 程序 一 样 ,本 节 查 看 服务 器 程序 也 非常 简略 , 具体 细节 留待 本 书 以 后 论述 。 

有 以 下 几 点 需要 注意 。 

e 与 其 客户 程序 一 样 ， 这 一 服务 器 程序 也 与 IPv4 协 议 相 关 。 我 们 将 在 图 11-13 中 给 出 使 用 
getaddrinfo 函 数 实现 的 一 个 协议 无 关 的 版 本 。 

e 本 服务 器 一 次 只 能 处 理 一 个 客户 。 如 果 多 个 客户 连接 差不多 同时 到 达 ， 系 统 内 核 在 某 个 
最 大 数目 的 限制 下 把 它们 排 入 队列 ， 然 后 每 次 返回 一 个 给 accept 函 数 。 本 服务 器 只 需 
调用 time 和 ctime 这 两 个 库 函 数 ， 运 行 速 度 很 快 。 然 而 如 果 服 务 器 需 用 较 多 时 间 〈 壁 如 
说 几 秒 钟 或 一 分 钟 〉 服 务 每 个 客户 ， 那 么 我 们 必须 以 某 种 方式 重 县 对 各 个 客户 的 服务 。 
图 1-9 中 所 示 的 服务 器 称 为 迭代 服务 器 (iterative server)， 因 为 对 于 每 个 客户 它 都 迭代 执 
行 一 次 。 同 时 能 处 理 多 个 客户 的 并 发 服务 器 (concurrent server) 有 多 种 编写 技术 。 最 简 
单 的 技术 是 调用 Unix 的 fork 函 数 〈4.7 节 )， 为 每 个 客户 创建 一 个 子 进程 。 其 他 技术 包括 
使 用 线程 代替 fork (26.4 节 ), 或 在 服务 器 启动 时 预先 fork 一 定数 量 的 子 进程 (30.6 节 )。 

e 如 果 从 shell 命 令 行 启动 本 例 这 样 的 一 个 服务 器 ,我 们 也 许 想 要 它 运行 很 长 时 间 ， 因 为 服 
务 器 往往 在 系统 工作 期 间 一 直 运 行 。 这 要 求 我 们 往 服务 器 程序 中 添加 代码 ， 以 便 它 能 够 
作为 一 个 Unix 守 护 进 程 (daemon) 能 在 后 台 运行 且 不 跟 任何 终端 关联 的 进程 一 一 运 
行 。 我 们 将 在 13.4 节 讨论 守护 进程 。 


1.66 ”本 书 中 客户 /服务 器 程序 示例 索引 表 
贯穿 全 书 的 用 于 阐述 网 络 编程 中 使 用 的 各 种 技术 的 两 个 客户 /服务 器 程序 示例 如 下 : 








L6 本 书 中 客户 /服务 器 程序 示例 索引 表 15 


e 时 间 获 取 客 户 /服务 器 程序 (开始 于 图 1-5、 图 1-6 和 图 1-9); 

e 回 射 客户 /服务 器 程序 〈 开 始 于 第 $ 章 )。 

为 了 提供 本 书 所 涵盖 不 同 主题 的 路 线 图 , 我 们 用 下 面 4 个 表格 汇总 了 将 要 开发 的 程序 , 并 给 
出 了 它们 的 源 代码 所 在 的 起 始 图 号 。 图 1-10 列 出 了 本 书 开发 的 时 间 获 取 客户 程序 的 不 同 版 本 ， 
其 中 有 两 个 版 本 前 面 已 讲 过 。 图 1-11 列 出 了 时 间 获 取 服 务 器 程序 的 不 同 版 本 。 图 1-12 列 出 了 回 
射 客户 程序 的 不 同 版 本 ， 图 1-13 列 出 了 回 射 服务 器 程序 的 不 同 版 本 。 


TCP/IPv4， 协 议 相 关 

TCP/IPv6， 协 议 相 关 

TCP/TPv4， 协 议 相 关 ， 调 用 gethostbyname 和 getservbyname 
TCP， 协 议 无 关 ， 调 用 getaddrinfo 和 tcp_connect 

UDP， 协 议 无 关 ， 调 用 getaddrinfo 和 udp_client 


TCP， 使 用 非 阻塞 connect 

TCP， 协 议 相 关 ， 用 TPI 取 代 套 接 字 

TCP， 协 议 相 关 ， 产 生 sIGPIPE 

TCP， 协 议 相 关 ， 输 出 套 接 字 接收 缓冲 区 的 大 小 和 MSS 
TCP， 协 议 相 关 ， 人 允许 主机 名 (gethostbyname) 或 者 了 地址 
TCP， 协 议 无 关 ， 人 允许 主机 名 (gethostbyname) 


图 1-10 ”本 书 开发 的 时 间 获 取 客 户 程序 的 不 同 版 本 





TCP/IPv4， 协 议 相关 

TCP， 协 议 无 关 ， 调 用 getadGrinfo 和 tcp_listen 
TCP， 协 议 无 关 ， 调 用 getadarinfo 和 tcp_listen 
UDP， 协 议 无 关 ， 调 用 getadarinfo 和 udp_server 
TCP， 协 议 无 关 ， 作 为 孤立 的 守护 进程 运行 

TCP， 协 议 无 关 ， 从 inetd 守 护 进 程 派生 


图 1-11 本 书 开发 的 时 间 获 取 服 务 器 程序 的 不 同 版 本 


TCP/TPv4， 协 议 相 关 

TCP， 使 用 select 

TCP， 使 用 select 并 操纵 缓冲 区 
UDP/TPv4， 协 议 相关 

UDP， 验 证 服务 器 的 地 址 





UDP， 调 用 connect 获 取 异 步 错 误 

UDP， 使 用 sIGALRM 信 号 在 读 服 务 器 的 应 答 时 启动 超时 

UDP， 使 用 select 函 数 在 读 服务 器 的 应 答 时 启动 超时 

UDP， 使 用 so_RCVTTMPO 套 接 字 选项 在 读 服务 器 的 应 答 时 启动 超时 
Unix 域 字 节 流 ， 协 议 相 关 

Unix 域 数据 报 ， 协 议 相 关 





图 1-12 ”本 书 开发 的 回 射 客户 程序 的 不 同 版 本 


TCP， 使 用 非 阻塞 IO 

TCP， 使 用 两 个 进程 (fork) 

TCP， 建 立 连接 ， 然 后 发 送 RST 

TCP， 使 用 /Gev/poll 达 成 多 路 复 用 

TCP， 使 用 kqueue 达 成 多 路 复 用 

UDP， 具 有 竞争 状态 的 广播 

UDP， 具 有 竞争 状态 的 广播 

UDP， 通 过 使 用 pselect 消 除了 竞争 状态 的 广播 

UDP， 通 过 使 用 sigset jmp 和 siglongiimp 消 除了 竞争 状态 的 广播 
UDP， 通 过 在 信号 处 型 负数 中 使 用 [PC 消除 了 竞争 状态 的 广播 
UDP， 使 用 超时 、 重 传 和 序列 号 实现 可 靠 性 

(第 2 版 ) UDP， 使 用 带 外 数据 对 服务 器 心 搏 测 试 ? 

TCP， 使 用 两 个 线程 

TCPAPv4， 指 定 一 条 源 路 径 

UDP/IPv6， 指 定 一 条 源 路 径 


TCP/IPv4， 协 议 相 关 

TCP/IPv4， 协 议 相 关 ， 收 拾 终止 了 的 子 进 程 

TCP/IPv4， 协 议 相 关 ， 使 用 select， 单 个 进程 处 理 所 有 客户 
TCP/IPv4， 协 议 相 关 ， 使 用 pol1， 单 个 进程 处 理 所 有 客户 
UDP/IPv4， 协 议 相关 

TCP 和 UDP/IPv4， 协 议 相关 ， 使 用 select 

TCP， 使 用 标准 VO 函数 库 

Unix 域 字 节 流 ， 协 议 相 关 

Unix 域 数据 报 ， 协 议 相关 

Unix 域 字 节 流 ， 带 有 从 客户 端 传递 凭证 

UDP， 接 收 目的 地 址 和 收取 接口 信息 ， 截 取 数 据 报 
UDP， 捆 绑 所 有 接口 地 址 

UDP， 使 用 信号 驱动 的 MO 

TCP， 每 个 客户 一 个 线程 

TCP， 每 个 客户 一 个 线程 ， 可 移植 的 参数 传递 

TCP/IPv4， 输 出 接收 到 的 源 路 径 

UDPHPv6， 输 出 并 反 转 接收 到 的 源 路 径 

UDP， 使 用 icmpad 接 收 异步 错误 

UDP， 括 绑 所 有 接口 地 址 


图 1-13 ”本 书 开发 的 回 射 服务 器 程序 的 不 同 版 本 
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17 OSI 模型 $7 /) 3 
描述 一 个 网 络 中 各 个 协议 层 的 常用 方法 是 使 用 国际 标准 化 组 织 CInternational Organization 





CD 此 处 保留 了 本 书 第 2 版 的 内 容 。 一 一 译 者 注 
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for Standardization, ISO) 的 计算 机 通信 开放 系统 互 连 Copen systems interconnection, OSI) 模 
型 。 这 是 一 个 七 层 模型 ， 如 图 1-14 所 示 。 图 中 同时 给 出 了 它 与 网 际 协议 族 的 近似 映射 。 


应 用 层 细节 


用 户 进程 





网 际 网 协议 族 


图 1-14 ”OSI 模型 和 网 际 协议 族 中 的 各 层 


我 们 认为 OSI 模 型 的 底下 两 层 是 随 系统 提供 的 设备 驱动 程序 和 网 络 硬件 。 通 常情 况 下 ， 除 
需 知道 数据 链 路 的 某 些 特性 外 (如 将 在 2.11 节 论述 的 1500 字 节 以 太 网 的 MTU 大 小 ), 我 们 不 必 关 
心 这 两 层 的 具体 情况 。 

网 络 层 由 IPv4 和 IPv6 这 两 个 协议 处 理 ， 我 们 将 在 附录 A 中 讲述 它们 。 可 以 选择 的 传输 层 有 
TCP 或 UDP， 我 们 将 在 第 2 章 中 讲述 它们 。 图 1-14 中 TCP 与 UDP 之 间 留 有 了 间隙， 表明 网 络 应 用 绕 
过 传输 层 直 接 使 用 IPv4 或 IPv6 是 可 能 的 。 这 就 是 所 谓 的 原始 套 接 字 Craw socket)， 我 们 将 在 第 28 
章 中 讨论 。 

OSI 模 型 的 项 上 三 层 被 合并 成 一 层 ， 称 为 应 用 层 。 这 就 是 Web 客 户 ( 浏 览 器 )、Telnet 客 户 、 
Web 服 务 器 、FTP 服 务 器 和 其 他 我 们 在 使 用 的 网 络 应 用 所 在 的 层 。 对 于 网 际 协议 ，OSI 模 型 的 顶 
上 三 层 协议 几乎 没有 区 别 。 

本 书 讲述 的 套 接 字 编 程 接口 是 从 顶 上 三 层 (网 际 协议 的 应 用 层 ) 进入 传输 层 的 接口 。 本 书 
的 焦点 是 : 如 何 使 用 套 接 字 编 写 使 用 TCP 或 UDP 的 网 络 应 用 程序 。 我 们 已 提 到 原始 套 接 字 ， 在 
第 29 章 中 我 们 将 看 到 ， 甚 至 可 以 彻底 绕 过 IP 层 直接 读 写 数 据 链 路 层 的 帧 。 

为 什么 套 接 字 提供 的 是 从 OSI 模 型 的 项 上 三 层 进入 传输 层 的 接口 ? 这 样 设计 有 两 个 理由 ， 
如 图 1-14 右 侧 所 注 。 理 由 之 一 是 顶 上 三 层 处 理 具 体 网 络 应 用 (如 FTP、Telnet 或 HTTP》 的 所 有 细 
节 ， 却 对 通信 细节 了 解 很 少 ， 底 下 四 层 对 具体 网 络 应 用 了 解 不 多 ， 却 处 理 所 有 的 通信 细节 : 发 
送 数 据 ， 等 竺 确认 ， 给 无 序 到 达 的 数据 排序 ， 计 算 并 验证 校 验 和 ， 等 等 。 理 由 之 二 是 项 上 三 层 
通常 构成 所 谓 的 用 户 进程 (user process)， 底 下 四 层 却 通 常 作 为 操作 系统 内 核 的 一 部 分 提供 。 
Unix 与 其 他 现代 操作 系统 都 提供 分 隔 用 户 进 程 与 内 核 的 机 制 。 由 此 可 见 ， 第 4 层 和 第 5 层 之 间 的 
接口 是 构建 API 的 自然 位 置 。 


1.8 BSD 网 络 支 持 历史 
套 接 字 API 起 源 于 1983 年 发 行 的 4.2BSD 操 作 系统 。 图 1-15 展 示 了 各 种 BSD 发 行 版 本 的 发 展 
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E, 并 注 明 了 TCP/P 的 主要 发 展 历程 1990 年 面世 的 4.3BSD Reno 发 行 版 本 随 着 OSI 协议 进入 BSD 
内 核 而 对 套 接 字 API 做 了 少量 的 改动 。 


4.2BSD (19834) 
第 一 个 广泛 可 用 的 TCP/IP 
和 套 接 字 API 版 本 


4.3BSD 〈1986 年 ) 
改善 了 TCP 性 能 


， 


4.3BSD Tahoe (1988 年 ) 


BURG, ARER 
m 快速 重 传 


BSD Networking Software | 
1.0 版 (19894E) : Net/l 


4.3BSD Beno (1990 年 ) 
快速 恢复 ，TCP 首 部 预测 ， 


SLIP 首 部 压缩 ， 路 由 表 修 改 ; 
er c sockaddrf) 中 添加 长 度 字段 
msghdr{} 中 添加 控制 信息 
BSD Networking Software 
2.0 版 《1991 年 ) : Net/2 | 


4.4BSD (19934) 


NEC usd 多 播 ， 长 胖 管 道 改进 


4.4BSD-Lite (1994 年 ) 
正文 中 称 为 Net/3 BSD/OS 
FreeBSD 
| NetBSD 


OpenBSD 
4.4BSD-Lite2 (19954) 


1-15 各 种 BSD 版 本 的 历史 


图 1-15 中 从 4.2BSD 往 下 到 4.4BSD 的 通路 展示 了 源 自 Berkeley 计 算 机 系统 研究 组 (Computer 
Systems Research Group, CSRG) 的 各 个 版 本 ， 它 们 要 求 获取 者 已 拥有 Unix 的 源 代码 许可 权 。 
然而 其 中 的 所 有 网 络 支持 代码 , 不 论 是 内 核 支持 (如 TCP/IP 协 议 栈 、 Unix 域 协议 栈 及 套 接 字 API) 
还 是 应 用 程序 〈 如 Telnet 和 FTP 客 户 和 服务 器 程序 ) 都 是 独立 于 源 自 AT&T 的 Unix 代 码 开发 的 。 
因此 从 1989 年 起 ， Berkeley 开始 提供 第 一 个 BSD 网 络 支持 版 本 , 它 包 含 所 有 的 网 络 支持 代码 以 及 
不 受 Unix 源 代码 许可 权 约 束 的 其 他 各 种 BSD 系 统 软件 。 这 些 包 含 网 络 支持 代码 的 版 本 是 可 公开 
获取 的 ， 最 终 因特网 上 任何 人 都 可 通过 匿名 FTP 获 取 。 

源 自 Berkeley 的 最 终 版 本 是 1994 年 的 4.4BSD-Lite 和 1995 年 的 4.4BSD-Lite2。 我 们 指出 这 两 个 
版 本 是 其 他 多 个 系统 (包括 BSD/OS、FreeBSD、NetBSD 和 OpenBSD) 的 基础 ， 这 些 系统 大 多 
数 仍然 处 于 活跃 的 开发 和 完善 之 中 。 有 关 各 种 BSD 版 本 和 各 种 Unix 系 统 历史 的 详情 参见 
[Mckusick et al.1996] 的 第 1 章 。 
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许多 Unix 系 统 从 某 个 版 本 的 BSD 网 络 支持 代码 〈 包 括 套 接 字 API) 开始 提供 网 络 支持 ， 我 
们 称 这 些 实现 为 源 自 Berkeley 的 实现 (Berkeley-derived implementation)。 许 多 商业 版 本 的 Unix 
是 基于 System V 版 本 4 (System V Release4，SVR4) 的 ， 其 中 有 一 些 系统 使 用 源 自 Berkeley 的 网 
络 支持 代码 (如 UnixWare 2.x)， 其 他 SVR4 系 统 的 网 络 支 持 代码 却 是 独立 起 源 的 (如 Solaris 2.x)。 
我 们 还 要 注意 ，Linux 这 种 流行 的 可 免费 获得 的 Unix 实 现 并 不 适合 归属 源 自 Berkeley 的 系列 ， 
为 它 的 网 络 支持 代码 和 套 接 字 API 都 是 从 头 开 始 开发 的 。 


19 ”测试 用 网 络 及 主机 
图 1-16 展 示 了 本 书 示例 所 用 的 各 个 网 络 和 主机 。 对 于 每 个 主机 ， 我 们 都 标 出 了 它 的 操作 系 


统 和 硬件 类 型 (因为 有 些 操作 系统 可 运行 在 不 止 一 种 硬件 上 )。 各 个 框 内 的 名 字 就 是 出 现在 本 书 
中 的 各 个 主机 名 。 


MacOS/X 10.2.6 (HP-UX 11.11) 
(darwin 6.6) PA-RISC AIX 5.1 


Power PC 192.6.38.100 Power PC 

















135.197.17.100 


FreeBSD 4.8 
Intel x86 


172.24.37/24 192.168.42/24 


3f£fe:b80:1£8d:2/64 


206.168.112.96 
Linux 2.4.7 
(RedHat 7.2) 
Intel x86 


Solaris 9 
(SunOS 5.9) 
SPARC 


192.168.1/24 
图 1-16 ”本 书 示例 所 用 的 网 络 和 主机 
图 1-16 所 示 的 拓扑 适合 本 书 的 例子 ， 不 过 机 器 大 范围 地 散布 在 因特网 上 ， 物 理 拓扑 实际 上 
变 得 不 太 重要 。 事 实 上 虚拟 专用 网 络 (virtual private network, VPN) 或 安全 shell (secure shell, 
SSH) 连接 提供 这 些 机 器 之 间 的 连通 性 ， 而 无 需 顾及 这 些 主机 的 物理 位 置 。 
图 中 “/24”( 和 /64) 指出 从 地 址 的 最 左 位 开始 用 于 标识 网 络 和 子 网 的 连续 位 数 。A.4 节 将 
说 明 现 今 用 于 指定 子 网 边界 的 % 记 法 。 
Sun 操 作 系 统 的 真实 名 字 是 SunOS 5.x， 而 不 是 Solaris 2.x， 但 是 大 家 习惯 称 它 为 Solaris， 
实际 上 这 是 操作 系统 和 与 之 捆绑 的 其 他 软件 的 合 称 。 


网 络 拓扑 的 发 现 
图 1-16 展 示 了 本 书 的 全 部 示例 所 用 主机 的 网 络 拓扑 ， 但 是 为 了 在 你 自己 的 网 络 上 运行 这 些 
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例子 和 完成 习题 ， 你 可 能 需要 了 解 自己 的 网 络 拓扑 。 尽 管 目前 还 没有 关于 网 络 配置 和 管理 的 现 
行 Unix 标 准 ， 但 大 多 数 Unix 系 统 都 提供 了 可 用 于 发 现 某 些 网 络 细节 的 两 个 基本 命令 : netstat 
和 ifconfig。 遂 过 阅读 所 用 系统 上 这 些 命令 的 手册 页 面 2， 你 可 以 获悉 有 关 它 们 的 输出 信息 的 
详情 。 要 留意 的 是 ， 有些 厂商 把 这 些 命令 存放 在 诸如 /sbin 或 /usr/sbin 这 样 的 管理 目录 中 ， 而 
不 是 通常 的 /usr/bin 目 录 ， 而 这 些 管 理 目 录 可 能 不 在 通常 的 shell 搜 索 路 径 中 《由 PATH 环境 变量 


指定 )。 


(1) netstat -i 提 供 网 络 接口 的 信息 。 我 们 还 指定 -n 标 志 以 输出 数值 地 址 ， 而 不 是 试图 把 
它们 反 向 解析 成 名 字 。 下 面 的 例子 给 出 了 接口 及 其 名 字 和 统计 信息 : 


linux $ netstat -Di 
Kernel Interface table 


Iface MTU Met RX-OK RX-ERR RX-DRP RX-OVR 
etho 1500 049211085 0 0 040540958 
lo 16436 098613572 0 0 098613572 
其 中 环 回 〈loopback) 接口 称 为 1o， 以 太 网 接口 称 为 eth0。 
主机 的 类 似 信息 : 
freebsd % netstat -ni 
Name Mtu Network Address Ipkts 
hmed 1500 <Link#1l> 08:00:20:a7:68:6b 29100435 
hme0 1500 12.106.32/24 12.106.32.254 28746630 
hme0 1500 fe80:1::a00:20ff:fea7:686b/64 
£e80:1::a00:20ff:£e6a7:686b 
0 
hme0 1500 3ffe:b80:1£8d:1::1/64 
3ffe:b80:1f8d:1::1 0 
hmel 1500 <Link#2> 08:00:20:a7:68:6b 51092 
hmel 1500 fe80:2::a00:20ff: fea7:686D/64 
fe80:2::a00:20ff: fea7:686b 
0 
hmel 1500 192.168.42 192.168.42.1 43584 
hmel 1500 3ffe:b80:1f8d:2::1/64 
3f£fe:b80:1f8d:2::1 78 
100 16384 <Link#6> 10198 
100 16384 ::1/128 cst 10 
100 16384 £e80:6::1/64 fe80:6::1 0 
100 16384 127 127.0.0.1 10167 
gif0 1280 <Link#8> 6 
gif0 1280 3ffe:b80:3:9ad1::2/128 
3ffe:b80:3:9ad1: :2 0 
gif0 1280 feB0:8::a00:20f££:fea7:6860/64 


fe80:8::a00:20££:fea7:686b 


0 


TX-OK TX-ERR TX-DRP TX-OVR Flg 


0 0 0 BMRU 
0 0 0 LRU 


下 面 的 例子 给 出 了 支持 IPv6 的 一 个 


Ierrs Opkts Oerrs Coll 
35 46561488 0 0 
- 46617260 - = 


ot © tet 
H= 
oc 
Olioli 
o:irniegdgsd 


注意 : 为 了 对 齐 输出 字段 ， 我 们 对 较 长 的 代码 行 做 了 回 行 处 理 。 
(2) netstat -展示 路 由 表 ， 也 是 另 一 种 确定 接口 的 方法 。 我 们 通常 指定 -n 标 志 以 输出 数 


值 地 址 。 它 还 给 出 默认 路 由 器 的 耳 地 址 。 


freebsd % netstat -nr 
Routing tables 


Internet: 


© 手册 页 面 《manual page 或 man page) 是 所 有 Unix 系 统 都 提供 的 使 用 man 命 令 查看 到 的 有 关 命 令 、 函 数 和 文件 等 的 
帮助 信息 。 某 个 条 目的 手册 页 面 就 是 以 该 条 目 为 命令 行 参数 执行 nan 的 输出 。 


一 详 者 注 
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Destination Gateway Flags Refs Use Netif Expire 
default 12.106.32.1 USGc 10 6877 hme0 
12.106.32/24 links uc 3 0 hmed 
12.106.32.1 00:50:8e:92:2c:00 . UHLW 9 7 hmed 1187 
12.106.32.253 08:00:20:b8:f7:e0 . UHLW 0 1 hme0 140 
12.106.32.254 08:00:20:a7:68:6b UHLW 0 2 100 
127.0.0.1 127.0.0.1 UH 1 10167 100 
192.168.42 link#2 Uc 2 0 hmel 
192.168.42.1 08:00:20:a7:68:6b . UHLW 0 11 1o0 
192.168.42.2 00:04:ac:17:bf:38 . UHLW 2 24108 hmel 210 
Internet6: 

Destination Gateway Flags Netif Expire 
::/96 1: UGRSc 100 => 
default 3ffe:b80:3:9adi::1 UGSc gif0 
111 sel UH 100 
::££££:0.0.0.0/96 1:1 UGRSC 100 
3ffe:b80:3:9ad1::1 3£fe:D080:3:9ad1::2 UH gif0 
3ffe:b80:3:9ad1: :2 link&48 UHL 1o0 
3ffe:b80:1f8d::/48 1o0 USc 100 
3f£e:580:1£8d:1::/64 link#1 Uc hme0 
3ffe:b80:1f8d:1::1 08:00:20:a7:68:6b UHL 100 
3ffe:b80:1f8d:2::/64 link#2 uc hmel 
3ffe:b80:1£8d:2::1 08:00:20:a7:68:6b UHL 100 
3ffe:b80:1f8d:2:204:acff:fel7:bf38 00:04:ac:17:bf:38 UHLW hmei 
£e80::/10 1:1 UGRSC 100 
fe80::$hme0/64 link#1 UC hme0 
fe80::a00:20ff:fea7:686b%hme0 08:00:20:a7:68:6b UHL 1o0 
feB0: :$nme1/64 link#2 uc hmel 
£e80::a00:20ff:fea7:686b$hmel1 08:00:20:a7:68:6b UHL 100 
fe80::%100/64 fe80::1$100 Uc 100 
fe80::1%100 link#6 UHL 100 
fe80::%gif0/64 link#8 uc gif0 
fe80::a00:20£f£:£ea7:686b$gif0 link#8 UHL 1o0 
££01::/32 te U 100 
££02::/16 ::1 UGRS 1o0 
££02::$hme0/32 link#1 uc hme0 
££02::$hme1/32 link#2 uc hmei 
££02::%100/32 SSF UC 100 
f££02::%gif0/32 link#8 Uc gif0 


(3) 有 了 各 个 网 络 接 口 的 名 字 ， 执 行 ifconfig 就 可 获得 每 个 接口 的 详细 信息 。 


linux % ifconfig etho 

etho Link encap:Ethernet  HWaddr 00:C0:9F:06:B0:E1 
inet addr:206.168.112.96 Bceast:206.168.112.127  Mask:255.255.255.128 
UP BROADCAST RUNNING MULTICAST  MTU:1500 Metric:1 
RX packets:49214397 errors:0 dropped:0 overruns:0 frame:0 
TX packets:40543799 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:100 
RX bytes:1098069974 (1047.2 Mb) TX bytes:3360546472 (3204.8 Mb) 
Interrupt:11 Base address:0x6000 


该 命令 给 出 了 指定 接口 的 了 地址 、 子 网 掩 码 和 广播 地 址 。 其 中 的 MULTICAST 标 志 通 常 指 明 
该 接口 所 在 主机 支持 多 播 。 有 些 ifconfig 的 实现 还 提供 -a 标 志 ， 用 于 输出 所 有 已 配置 接口 的 信 
息 。 

(4) 找 出 本 地 网 络 中 众多 主机 的 了 地址 的 方法 之 一 是 , 针对 从 上 一 步 找到 的 本 地 接口 的 广播 
地 址 执行 ping 命 令 。 
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linux $ ping -b 206.168.112.127 

WARNING: pinging broadcast address 

PING 206.168.112.127 (206.168.112.127) from 206.168.112.96 : 56(84) bytes of data. 
64 bytes from 206.168.112.96: icmp_seq=0 ttl1-255 time-241 usec 

64 bytes from 206.168.112.40: icmp_seq=0 tt1-255 time=2.566 msec (DUP!) 
64 bytes from 206.168.112.118: icmp_seq=0 ttl=255 time=2.973 msec (DUP!) 
64 bytes from 206.168.112.14: icmp_seq=0 ttl1-255 time=3.089 msec (DUP!) 
64 bytes from 206.168.112.126: icmp seq-0 ttl=255 time=3.200 msec (DUP!) 
64 bytes from 206.168.112.71: icmp_seq=0 tt1-255 time=3.311 msec (DUP!) 
64 bytes from 206.168.112.31: icmp_seq=0 ttl1-64 time=3.541 msec (DUP!) 
64 bytes from 206.168.112.7: icmp seq-0 tt1-255 time=3.636 msec (DUP!) 
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在 编写 本 书 时 ， 最 引 人 注 目的 Unix 标 准 化 活动 是 由 Austin 公 共 标 准 修 订 组 (The Austin 
Common Standards Revision Group, CSRG) 主持 的 。 他 们 的 努力 结果 是 涵盖 1 700 多 个 编程 接口 
的 约 4000 页 内 容 的 规范 [Josey 2002]。 这 些 规范 既 具 有 IEEE POSIX 名 字 ， 也 具有 开放 团体 的 技 
术 标 准 CThe Open Group's Technical Standard) 名 字 。 其 结果 是 同一 个 Unix 标 准 有 多 个 名 字 来 指 
BK: ISO/IEC 9945:2002, IEEE Std 1003.1-2001 和 单一 Unix 规 范 第 3 版 (Single Unix Specification 
Version 3) 都 指 同 一 个 标准 。 本 书 中 除了 像 本 节 这 样 需要 讨论 各 种 较 早 期 标准 各 自 特 性 的 章节 
外 ， 我 们 简单 地 称 这 个 Unix 标 准 为 POSIX 规 范 〈The POSIX Specification). 

获取 这 个 统一 标准 的 最 简易 方法 是 定购 其 CD-ROM 拷 贝 或 通过 Web 免 费 访 问 。 这 两 种 方法 
的 起 始点 都 是 http://www.UNIX.org/version3 。 


1.10.1 POSIX 的 背景 


POSIX (可 移植 操作 系统 接口 ) Portable Operating System Interface 的 首 字母 缩写 。 它 并 不 
是 单个 标准 ， 而 是 由 电气 与 电子 工程 师 学 会 〈the Institute for Electrical and Electronics Engineers, 
Inc.) 即 IEEE 开 发 的 一 系列 标准 。POSIX 标 准 已 被 国际 标准 化 组 织 即 ISO 和 国际 电工 委员 会 (the 
International Electrotechnical Commission 》 即 IEC 采 纳 为 国际 标准 〈 这 两 个 组 织 合 称 为 ISO/IEC )。 
下 面 是 POSIX 标 准 的 发 展 简 史 。 

。 第 一 个 POSIX 标 准 是 IEEE Std 1003.1-1988《〈317 页 )。 它 详 述 了 进入 类 Unix 内 核 的 C 语 言 
接口 ， 涵 盖 了 下 述 领域 ， 进程 原 语 (fork、exec、 信 号 和 定时 器 )、 进 程 环 境 (用户 ID 
和 进程 组 )、 文 件 与 目录 (所 有 I/O 函 数 )、 终 端 WO、 系 统 数据 库 ( 口 令 文件 和 用 户 组 文 
件 ) 以 及 tar 和 cpio 归 档 格式 。 

第 一 个 POSIX 标 准 在 1986 年 是 称 为 “IEEE-IX” 的 试用 版 。POSIX 这 个 名 字 是 由 Richard 
Stallman 建 议 使 用 的 。 

e 第 二 个 POSIX 标 准 是 IEEE Std 1003.1-1990 〈356 页 )， 也 称 为 ISO/IEC 9945-1: 1990。 从 
1988 版 本 到 1990 版 本 只 做 了 少量 的 修改 。 新 添 的 副标题 为 “Part 1: System Application 
Program Interface (API) [C Language] ”， 表 明 本 标准 为 C 语 言 API。 

e 下 一 个 标准 是 两 卷 本 的 I[EEE Std 1003.2-1992 〈 约 1300 页 )。 它 的 副标题 为 “Part 2: Shell 
and Utilities”。 这 一 部 分 定义 了 shell (基于 System V 的 Bourne Shell) 和 大 约 100 个 实用 程 
Æ (通常 从 shell 启 动 执 行 的 程序 ， 如 awk、basename、vi 和 yacc 等 等 )。 本 书 称 这 个 标 
准 为 POSIX.2。 
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e 再 下 一 个 标准 是 IEEE Std 1003.1b-1993 〈590 页 )， 先 前 称 为 IEEE P1003.4。 这 是 对 
1003.1-1990 标 准 的 更 新 ， 添 加 了 由 P1003.4 工 作 组 开发 的 实时 扩展 。1003.1b-1993 相 比 
1990 年 版 标准 新 增 的 条 目 包 括 : 文件 同步 、 异 步 JO、 信 和 号 量 、 存 储 管理 (mmap 和 共享 
内 存 )、 执 行 调度 、 时 钟 与 定时 器 以 及 消息 队列 。 


e 更 下 一 个 标准 是 IEEE Std 1003.1 1996 年 版 [IEEE 1996] (743 页 ), 也 称 为 ISO/IEC 9945-1: 


1996， 它 包括 1003.1-1990 (基本 API)、1003.1b-1993 (实时 扩展 )、1003.1c-1995 
(pthreads) 和 1003.1i-1995《 对 1003.1b 的 技术 性 修订 )。 该 标准 增添 了 3 章 关 于 线程 的 
内 容 ， 并 另 有 关于 线程 同步 〈 互 斥 锁 和 条 件 变量 )、 线 程 调 度 和 同步 调度 的 各 节 。 本 书 
称 这 个 标准 为 POSIX.1。 该 标准 还 有 一 个 前 言 ， 其 中 声明 ISO/IEC 9945 由 下 面 3 个 部 分 构 
成 。 

m Part 1: System API (C language) 一 一 第 1 部 分 ， RAAPI (CHF). 

= Part 2: Shell and utilities 第 2 部 分 ，Shell 和 实用 程序 。 

m Part 3: System administration 一 一 第 3 部 分 : 系统 管理 (正在 开发 中 )。 

第 1 部 分 和 第 2 部 分 就 是 我 们 所 说 的 POSIX.1 和 POSIX.2。 


743 页 中 有 超过 四 分 之 一 的 篇 幅 是 一 个 标题 为 “Rationale and Notes” ( 理由 与 注解 ) 的 附 
X. 该 附录 含有 历史 性 信息 和 某 些 特性 被 加 入 或 删除 的 理由 。 这 些 理由 通常 跟 正式 标准 一 样 
RRB. 


e 最 后 一 个 标准 是 在 2000 年 被 认可 ?的 IEEE Std 1003.1g: Protocol-independent interfaces 
(PID。 在 单一 Unix 规 范 第 3 版 (The Single Unix Specification Version 3) 面世 之 前 ， 这 是 
与 本 书 涵盖 的 主题 最 为 相关 的 POSIX 产 品 。 它 是 联网 API 标 准 ， 它 定义 了 两 个 API， 并 称 
它们 为 详尽 网 络 接口 (Detailed Network Interface, DNI). 
= DNISocket， 基 于 4.4BSD 的 套 接 字 API。 
a DNI/XTI， 共 于 X/Open 的 XPG4 规 范 。 

这 个 标准 的 工作 作为 P1003.12 工 作 组 (后 来 改名 为 P1003.1g)〉 起 始 于 20 世 纪 80 年 代 后 期 。 

本 书 称 这 个 标准 为 POSIX.1g。 
关于 各 种 POSIX 标 准 的 当前 状况 可 以 访问 http://www.pasc.org/standing/sd11.html。 


1.10.2 ”开放 团体 的 背景 


开放 团体 (The Open Group) 是 由 1984 年 成 立 的 X/Open 公司 (X/Open Company) 和 1988 年 
成 立 的 开放 软件 基金 会 (Open Software Foundation, OSF) 于 1996 年 合并 成 的 组 织 。 它 是 厂商 、 
工业 界 最 终 用 户 、 政 府 和 学 术 机 构 共同 参加 的 国际 组 织 。 下 面 是 开放 团体 制定 的 标准 的 简要 背 
X. 

e X/Open 公司 于 1989 年 出 版 了 NOpen Portability Guide (X/Open 移 植 性 指南 ，XPG) 第 3 

期 ， 即 XPG3。 

e XPG 第 4 期 即 XPG4 出 版 于 1992 年 ， 其 第 2 版 出 版 于 1994 年 。 这 个 最 新 版 本 也 称 为 “Spec 
1 170”， 其 中 魔 数 1170 是 系统 接口 数 〈926 个 )、 头 文件 数 〈70 个 ) 和 命令 数 (174%) 
的 总 和 。 这 组 规范 的 最 终 名 字 是 X/Open Single Unix Specification (X/Open 单 一 Unix 规 
W), ERX “Unix 95". 








QD 这 里 被 认可 标准 (approved standard) 意思 是 成 为 正式 标准 前 的 特定 阶段 。 一 一 译 者 注 
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e 单一 Unix 规 范 第 2 版 于 1997 年 3 月 发 行 。 符 合 这 个 规范 的 产品 称 为 “Unix 98”。 本 书 就 称 
这 个 规范 为 “Unix 98”. Unix 98 的 接口 数目 从 1170 个 增长 到 1434 个 ， 而 用 于 工作 站 的 接 
口 数 则 达到 3 030 个 ， 因 为 它 包 含 公共 桌面 环境 (Common Desktop Environment, CDE), 
而 公共 桌面 环境 又 需要 X Windows 系 统 和 Meotif 用 户 接口 。 本 规范 的 详情 参见 
http://www.UNIX.org/version2 和 [Josey 1997]. Unix 98 为 套 接 字 API 和 XTI API 定 义 了 网 
络 支持 服务 。 这 个 规范 与 POSIX.1g 几 乎 相同 。 

不 幸 的 是 ，X/Open 称 它们 的 网 络 标准 为 XNS: X/Open Networking Services。 定 义 Unix 98 
套 接 字 和 XTI 的 文档 的 这 一 版 本 称 为 “XNS Issue 5”( XNS 第 5 期 ). 在 网 络 界 , XNS 已 是 Xerox 
Network Systems 体 系 结构 的 简称 。 所以， 我 们 避免 使 用 XNS， 而 称 这 个 X/Open 文档 为 Unix 98 
网 络 API 标 准 。 


1.10.3 ”标准 的 统一 


如 本 节 开 头 所 提 ， 伴 随 Austin CSRG 发 布 单一 Unix 规 范 第 3 版 ，POSIX 和 开放 团体 都 继续 发 
展 ， 达 成 统一 的 标准 。CSRG 促 成 50 多 家 公司 就 单一 标准 达成 一 致意 见 ， 这 在 Unix 发 展 史 上 确 
实 是 一 件 划时代 之 大 事 。 如 今 大 多 数 Unix 系 统 都 符合 POSLX.1 和 POSIX.2 的 某 个 版 本 ， 不 少 系统 
符合 单一 Unix 规 范 第 3 版 。 

历史 上 多 数 Unix 系 统 或 者 源 自 Berkeley， 或 者 源 自 System V， 不 过 这 些 差别 在 慢 慢 消 失 ， 因 
为 大 多 数 厂 商 已 开始 采纳 这 些 标准 。 然 而 在 系统 管理 的 处 理 上 两 者 仍然 存在 较 大 差别 ， 这 个 领 
域 目前 还 没有 标准 可 循 。 

本 书 的 焦点 是 单一 Unix 规 范 第 3 版 ， 其 中 又 以 套 接 字 API 为 主 。 只 要 可 能 ， 我 们 就 使 用 标准 
函数 。 


1.104 ”因特网 工程 任务 攻坚 组 


因特网 工程 任务 攻坚 组 (Internet Engineering Task Force，IETF) 是 一 个 由 关心 因特网 体系 
结构 的 发 展 及 其 顺利 运作 的 网 络 设计 者 、 操 作 员 、 厂 商 和 研究 人 员 联合 组 成 的 开放 的 国际 团体 。 
它 向 任何 感 兴趣 的 个 人 开放 。 

因特网 标准 处 理 过 程 在 RFC 2026 [Bradner 1996] 中 说 明 。 因 特 网 标准 一 般 处 理 协议 问题 
而 不 是 编程 API， 不 过 仍 有 两 个 RFC (RFC 3493 [Gilligan et al. 2003 ] 和 RFC 3542 [Stevens et al. 
2003]) 说 明了 IPv6 的 套 接 字 API。 它 们 是 信息 性 的 RFC， 并 不 是 标准 ， 制 定 它 们 的 目的 是 加 速 
部 署 由 多 家 从 事 IPv6 工 作 较 早 的 厂商 所 开发 的 可 移植 网 络 应 用 程序 。 尽 管 标准 主体 趋 于 花费 很 
长 的 时 间 ， 其 中 许多 API 却 已 经 在 单一 Unix 规 范 第 3 版 中 标准 化 了 。 


1.11 64 位 体系 结构 


20 世 纪 90 年 代 中 期 到 未 期 开始 出 现 向 64 位 体系 结构 和 64 位 软件 发 展 的 趋势 。 其 原因 之 一 是 
在 每 个 进程 内 部 可 以 由 此 使 用 更 长 的 编 址 长 度 ( 即 64 位 指针 ), 从 而 可 以 寻 址 很 大 的 内 存 空间 ( 超 
过 232 字 节 )。 现 有 32 位 Unix 系 统 上 共同 的 编程 模型 称 为 ILP32 模 型 ， 表 示 整 数 (ID)、 长 整数 CL) 
和 指针 (CP) 都 占用 32 位 。64 位 Unix 系 统 上 变 得 最 为 流行 的 模型 称 为 LP64 模 型 ， 表 示 只 有 长 整 
HCL) 和 指针 CP) 占用 64 位 。 图 1-17 对 这 两 种 模型 进行 了 比较 。 

从 编程 角度 看 ，LP64 模 型 意味 着 我 们 不 能 假设 一 个 指针 能 存放 在 一 个 整数 中 。 我 们 还 必须 
考虑 LP64 模 型 对 现 有 API 的 影响 。 
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图 1-17 ILP32 和 LP64 模 型 保存 不 同 数据 类 型 所 占用 的 位 数 的 比较 


ANSIC 创 造 了 size tt 数据 类 型 ， 它 用 于 作为 malloc 的 唯一 参数 〈 待 分 配 的 字 节 数 )， 或 者 
作为 reada 和 write 的 第 三 个 参数 ( 待 读 或 写 的 字 节 数 )。 在 32 位 系统 中 size 上 是 一 个 32 位 值 ， 但 
是 在 64 位 系统 中 它 必须 是 一 个 64 位 值 ， 以 便 发 挥 更 大 寻 址 模型 的 优势 。 这 意味 着 64 位 系统 中 也 
许 含有 一 个 把 size_t 定 义 为 unsigned long 的 typedef 指 令 。 联 网 API 存 在 如 下 问题 : POSIX.1g 
的 某 些 草案 规定 ， 存 放 套 接 字 地 址 结构 大 小 的 函数 参数 具有 size 上 数据 类 型 binal 
connect 的 第 三 个 参数 )。 某 些 XTI 结 构 也 含有 数据 类 型 为 long 的 成 员 《〈 如 t_info 和 t_opthdr 
结构 )。 如 果 这 些 规 定 不 加 修改 ， 当 Unix 系 统 从 ILP32 模 型 转变 为 LP64 模 型 时 ，size_ 上 和 1ong 
都 将 从 32 位 值 变 为 64 位 值 。 这 两 个 例子 实际 上 并 不 需要 使 用 64 位 的 数据 类 型 : 套 接 字 地 址 结构 
的 长 度 最 多 也 就 几 百 个 字 节 ， 给 XTI 的 结构 成 员 使 用 long 数 据 类 型 则 是 个 错误 。 

处 理 这 些 情况 的 办 法 是 使 用 专门 设计 的 数据 类 型 。 套 接 字 API 对 套 接 字 地 址 结构 的 长 度 使 
用 socklen_t 数 据 类 型 ，XTI 则 使 用 t_scalar_t 和 t_uscalar_t 数 据 类 型 。 不 把 这 些 值 由 32 位 
改 为 64 位 的 理由 是 易于 为 那些 已 在 32 位 系统 中 编译 的 应 用 程序 提供 在 新 的 64 位 系统 中 的 二 进 制 
代码 兼容 性 。 


1.12 小 结 





图 1-5 展 示 了 一 个 尽管 简单 但 却 完 整 的 TCP 客 户 程序 ， 它 从 某 个 指定 的 服务 器 读 取 当 前 时 间 
和 日 期 ; 而 图 1-9 则 展示 了 其 服务 器 程序 的 一 个 完整 版 本 。 这 两 个 例子 引入 了 许多 本 书 其 他 部 分 
将 要 扩展 的 概念 和 术语 。 

我 们 的 客户 程序 与 IPv4 协 议 相 关 ， 我 们 于 是 把 它 修 改 成 使 用 IPv6， 但 这 样 做 却 只 是 给 了 我 
们 另外 一 个 协议 相关 的 程序 。 我 们 将 在 第 11 章 中 开发 一 些 可 用 来 编写 协议 无 关 代 码 的 函数 ， 这 
在 因特网 开始 使 用 IPv6 后 会 变 得 非常 重要 。 

纵 贯 本 书 , 我 们 将 使 用 1.4 节 中 介绍 的 包 囊 函数 来 缩短 代码 , 同时 又 保证 测试 每 个 函数 调用 ， 
检查 是 否 返 回 错误 。 我 们 的 包 暑 函数 都 以 一 个 大 写字 母 开 头 。 

单一 Unix 规 范 第 3 版 有 多 个 名 称 , 我 们 简单 地 称 之 为 POSIX 规 范 。 它 是 两 个 长 期 发 展 的 标准 
团体 各 自 努力 的 汇合 ， 由 Austin CSRG 最 终 团结 起 来 。 

对 Unix 网 络 支持 历史 感 兴趣 的 读者 可 参阅 叙述 Unix 历 史 的 [Salus 1994 ] 和 叙述 TCP/IP 及 因 
特 网 历史 的 [Salus 1995 ]. 


1.1 按 1.9 节 未 尾 的 步骤 找 出 你 自己 的 网 络 拓扑 的 信息 。 
L2 获取 本 书 示 例 的 源 代码 〈 见 前 言 )， 编 译 并 测试 图 1-5 所 示 的 TCP 时 间 获 取 客 户 程序 。 运 行 这 个 程序 若 
干 次 ， 每 次 以 不 同人 P 地 址 作为 命令 行 参数 。 
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把 图 1-5 中 的 socket 的 第 一 参数 改 为 9999。 编译 并 运行 这 个 程序 。 结 果 如 何 ? 找 出 对 应 于 所 输出 出 错 
的 errno 值 。 你 如 何 可 以 找到 关于 这 个 错误 的 更 多 信息 ? 

修改 图 1-5 中 的 while 循 环 ， 加 入 一 个 计数 器 ， 累 计 read 返 回 大 于 零 值 的 次 数 。 在 终止 前 输出 这 个 计 
数 器 值 。 编 译 并 运行 你 的 新 客户 程序 。 

按 下 述 步 又 修改 图 1-9 中 的 程序 。 首 先 ， 把 赋 于 sin_port 的 端口 号 从 13 改 为 9999。 然 后 ， 把 write 
的 单一 调用 改 为 循环 调用 , 每 次 写 出 结果 字符 串 的 一 个 字 节 。 编译 修改 后 的 服务 器 程序 并 在 后 台 启 动 
执行 。 接 着 修改 前 一 道 习题 中 的 客户 程序 〈 它 在 终止 前 输出 计数 器 值 )， 把 赋 于 sin_port 的 端口 号 
从 13 改 为 9999。 启 动 这 个 客户 程序 ， 指 定 运 行 修改 后 的 服务 器 程序 的 主机 的 IP 地 址 作为 命令 行 参数 。 
客户 程序 计数 器 的 输出 值 是 多 少 ? 如 果 可 能 ， 在 不 同 主机 上 运行 这 个 客户 与 服务 器 程序 。 
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2.1 概述 


本 章 提供 本 书 示 例 所 用 TCP/IP 协 议 的 概貌 。 我 们 的 目的 是 从 网 络 编程 角度 提供 足够 的 细 
节 以 理解 如 何 使 用 这 些 协 议 ， 同 时 提供 有 关 这 些 协议 的 实际 设计 、 实 现 及 历史 的 具体 描述 的 
参考 点 。 

本 章 的 焦点 是 传输 层 ， 包 括 TCP、UDP 和 SCTP (Stream Control Transmission Protocol, jf 
控制 传输 协议 )。 绝 大 多 数 客户 /服务 器 网 络 应 用 使 用 TCP 或 UDP。SCTP 是 一 个 较 新 的 协议 ， 最 
初 设计 用 于 路 因特网 传输 电话 信 令 。 这 些 传输 协议 都 转 而 使 用 网 络 层 协 议 卫 : 或 是 IPv4， 或 是 
IPv6。 尽 管 可 以 绕 过 传输 层 直接 使 用 IPv4 或 ITPv6， 但 这 种 技术 〈 往 往 称 为 原始 套 接 字 ) 却 极 少 
使 用 。 因 此 ， 我 们 把 IPv4 和 IPv6 以 及 ICMPv4 和 ICMPv6 的 详细 描述 安排 在 附录 A 中 。 

UDP 是 一 个 简单 的 、 不 可 靠 的 数据 报 协议 ， 而 TCP 是 一 个 复杂 、 可 靠 的 字 节 流 协议 。SCTP 
与 TCP 类 似 之 处 在 于 它 也 是 一 个 可 靠 的 传输 协议 ， 但 它 还 提供 消息 边界 、 传 输 级 别 多 宿 
(multiboming) 支持 以 及 将 头 端 阻塞 Chead-of-line blocking) 减少 到 最 小 的 一 种 方法 。 我 们 必须 
了 解 由 这 些 传 输 层 协议 提供 给 应 用 进程 的 服务 ， 这 样 才能 弄 清 这 些 协 议 处 理 什么 ， 应 用 进程 中 
又 需要 处 理 什 么 。 

TCP 的 某 些 特性 一 旦 理解 ， 就 很 容易 编写 健壮 的 客户 和 服务 器 程序 ， 也 很 容易 使 用 诸如 
netstat 等 普遍 可 用 的 工具 来 调试 客户 和 服务 器 程序 。 本 章 将 阐述 以 下 相关 主题 ，TCP 的 三 路 
握手 、TCP 的 连接 终止 序列 和 TCP 的 TIME_WAIT 状 态 ，SCTP 的 四 路 握手 和 SCTP 的 连接 终止 ， 
加 上 由 套 接 字 层 提供 的 TCP、UDP 和 SCTP 缓 冲 机 制 ， 等 等 。 


2.2 总 图 


虽然 协议 族 被 称 为 “TCP/IP”， 但 除了 TCP 和 耳 这 两 个 主要 协议 外 ， 还 有 许多 其 他 成 员 。 
2-1 展 示 了 这 些 协议 的 概况 。 

图 2-1 中 同时 展示 了 IPv4 和 IPv6。 从 右 向 左 查看 该 图 ， 最 右边 的 5 个 网 络 应 用 在 使 用 IPv6; 我 
们 将 在 第 3 章 中 随 sockaddr_in6 结 构 讲 解 AF_INET6 常 值 。 随 后 的 6 个 网 络 应 用 使 用 IPv4。 

最 左边 名 为 tcpdump 的 网 络 应 用 或 者 使 用 BSD 分 组 过 滤器 (BSD packet filter，BPF)， 或 者 
使 用 数据 链 路 提供 者 接口 〈datalink provider interface，DLPI) 直接 与 数据 链 路 进行 通信 。 处 于 
其 右边 所 有 9 个 应 用 下 面 的 虚线 标记 为 API， 它 通常 是 套 接 字 或 XTI。 访 问 BPF 或 DLPI 的 接口 不 
使 用 套 接 字 或 XTI。 


这 种 情况 存在 一 个 例外 :Linux 使 用 一 种 称 为 SOCK_PACKET 的 特殊 套 接 字 类 型 提供 对 于 数 
据 链 路 的 访问 。 我们 将 在 第 28 章 中 详细 讲述 这 个 例外 . 
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图 2-1 TCP7P 协 议 概况 


图 2-1 中 还 标明 traceroute 程 序 使 用 两 种 套 接 字 : 了 P 套 接 字 用 于 访问 也 ，ICMP 套 接 字 用 于 

访问 ICMP。 在 第 28 章 中 ， 我 们 将 开发 ping 和 traceroute 这 两 个 应 用 的 IPv4 和 IPv6 版 本 。 

下 面 我 们 讲解 一 下 图 2-1 中 的 每 一 个 协议 框 。 

IPv4 网 际 协议 版 本 4 CInternet Protocol version 4)。IPv4 (通常 称 之 为 了 了 ) 自 20 世 纪 
80 年 代 早 期 以 来 一 直 是 网 际 协议 族 的 主力 协议 。 它 使 用 32 位 地 址 〈 见 A.4 节 )。 
IPv4 给 TCP、UDP、SCTP、ICMP 和 IGMP 提 供 分 组 递送 服务 。 

IPv6 网 际 协议 版 本 6 (nternet Protocol version 6)。IPv6 是 在 20 世 纪 90 年 代 中 期 作为 
IPv4 的 一 个 替代 品 设计 的 。 其 主要 变化 是 使 用 128 位 更 大 地 址 〈 见 A.5 节 ) 以 应 
对 20 世 纪 90 年 代 因 特 网 的 爆发 性 增长 。IPv6 给 TCP、UDP、SCTP 和 ICMPv6 提 
供 分 组 递送 服务 。 

当 无 需 区 别 IPv4 和 IPv6 时 ， 我 们 经 常 把 “IP” 一 词 作为 形容 词 使 用 ， 如 IP 层 、 
IP 地 址 等 。 

TCP 传输 控制 协议 (Transmission Control Protocol)。TCP 是 一 个 面向 连接 的 协议 ， 
为 用 户 进程 提供 可 靠 的 全 双 工 字 节 流 。TCP 套 接 字 是 一 种 流 套 接 字 (stream 
socket)。TCP 关 心 确认 、 超 时 和 重 传 之 类 的 细节 。 大 多 数 因特网 应 用 程序 使 用 
TCP。 注 意 ，TCP 既 可 以 使 用 [Pv4， 也 可 以 使 用 IPv6。 

UDP 用 户 数据 报 协 议 (User Datagram Protocol)。UDP 是 一 个 无 连接 协议 。UDP 套 接 
字 是 一 种 数据 报 套 接 字 (datagram socket)。UDP 数 据 报 不 能 保证 最 终 到 达 它 们 
的 目的 地 。 与 TCP 一 样 ，UDP 既 可 以 使 用 IPv4， 也 可 以 使 用 IPv6。 

SCTP 流 控 制 传输 协议 (Stream Control Transmission Protocol)。SCTP 是 一 个 提供 可 靠 
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全 双 工 关联 的 面向 连接 的 协议 ， 我 们 使 用 “关联 ”一 词 来 指称 SCTP 中 的 连接 ， 
因为 SCTP 是 多 宿 的 ， 从 而 每 个 关联 的 两 端 均 涉及 一 组 了 P 地 址 和 一 个 端口 号 。 
SCTP 提 供 消息 服务 ， 也 就 是 维护 来 自 应 用 层 的 记录 边界 。 与 TCP 和 UDP 一 样 ， 
SCTP 既 可 以 使 用 ITPv4， 也 可 以 使 用 IPv6， 而 且 能 够 在 同一 个 关联 中 同时 使 用 
它们 。 

ICMP 网 际 控制 消息 协议 nternet Control Message Protocol)。ICMP 处 理 在 路 由 器 和 
主机 之 间 流 通 的 错误 和 控制 消息 。 这 些 消息 通常 由 TCP/IP 网 络 支持 软件 本 身 
(而 不 是 用 户 进程 ) 产生 和 处 理 ， 不 过 图 中 展示 的 ping 和 traceroute 程 序 同样 
使 用 ICMP。 有 时 我 们 称 这 个 协议 为 ICMPv4， 以 便 与 CMPv6 相 区 别 。 

IGMP 网 际 组 管理 协议 (Internet Group Management Protocol)。IGMP 用 于 多 播 〈 见 第 
21 章 )， 它 在 IPv4 中 是 可 选 的 。 

ARP 地 址 解析 协议 Address Resolution Protocol)。ARP 把 一 个 IPv4 地 址 映射 成 一 个 
硬件 地 址 (如 以 太 网 地 址 )。ARP 通 常用 于 诸如 以 太 网 、 令 牌 环 网 和 FDDI 等 广 
播 网 络 ， 在 点 到 点 网 络 上 并 不 需要 。 

RARP 反 向 地 址 解析 协议 (Reverse Address Resolution Protocol)。RARP 把 一 个 硬件 地 
址 映射 成 一 个 IPv4 地 址 。 它 有 时 用 于 无 盘 节 点 的 引导 。 

ICMPv6 ”网 际 控制 消息 协议 版 本 6 (Internet Control Message Protocol version 6)。ICMPv6 
综合 了 ICMPv4、IGMP 和 ARP 的 功能 。 

BPF BSD 分 组 过 滤器 (BSD packet filter)。 该 接口 提供 对 于 数据 链 路 层 的 访问 能 力 ， 
通常 可 以 在 源 自 Berkeley 的 内 核 中 找到 。 

DLPI 数据 链 路 提供 者 接口 (datalink provider interface)。 该 接口 也 提供 对 于 数据 链 路 
层 的 访问 能 力 ， 通 常 随 SVR4 内 核 提 供 。 

所 有 网 际 协议 由 一 个 或 多 个 称 为 请 求 评 注 〈Request for Comments, RFC) 的 文档 定义 ， 这 

些 RFC 就 是 它们 的 正式 规范 。 习 题 2.1 的 答案 说 明 如 何 获得 这 些 RFC。 
我 们 使 用 术语 “IPv4/IPv6 主 机 ”或 “ 双 栈 主机 ”表示 同时 支持 IPv4 和 IPv6 的 主机 。 
TCP/IP 协 议 的 其 他 细节 参见 TCPvy1。TCP/IP 在 4.4BSD 上 的 实现 参见 TCPv2。 


23 ”用户 数 据 报 协议 (UDP) | 


UDP 是 一 个 简单 的 传输 层 协议 ， 在 RFC 768 [Postel 1980] 中 有 详细 说 明 。 应 用 进程 往 一 个 
UDP 套 接 字 写 入 一 个 消息 ， 该 消息 随后 被 封装 〈encapsulating) 到 一 个 UDP 数据 报 ， 该 UDP 数据 
报 进而 又 被 封装 到 一 个 IP 数 据 报 ， 然 后 发 送 到 目的 地 。UDP 不 保证 UDP 数据 报 会 到 达 其 最 终 目 
的 地 ， 不 保证 各 个 数据 报 的 先后 顺序 跨 网 络 后 保持 不 变 ， 也 不 保证 每 个 数据 报 只 到 达 一 次 。 

我 们 使 用 UDP 进 行 网 络 编程 所 过 到 的 问题 是 它 缺 乏 可 靠 性 。 如 果 一 个 数据 报到 达 了 其 最 终 
目的 地 ， 但 是 校 验 和 检测 发 现 有 错误 ， 或 者 该 数据 报 在 网 络 传输 途中 被 丢弃 了 ， 它 就 无 法 被 投 
递 给 UDP 套 接 字 ， 也 不 会 被 源 端 自动 重 传 。 如 果 想 要 确保 一 个 数据 报到 达 其 目的 地 ， 可 以 往 应 
用 程序 中 添置 一 大 堆 的 特性 : 来 自 对 端的 确认 、 本 端的 超时 与 重 传 等 。 

每 个 UDP 数据 报 都 有 一 个 长 度 。 如 果 一 个 数据 报 正 确 地 到 达 其 目的 地 ， 那 么 该 数据 报 的 长 
度 将 随 数据 一 道 传 递 给 接收 端 应 用 进程 。 我 们 已 经 提 到 过 TCP 是 一 个 字 节 流 (byte-stream ) 协议 ， 
没有 任何 记录 边界 〈 见 1.2 节 )， 这 一 点 不 同 于 UDP。 
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我 们 也 说 UDP 提 供 无 连接 的 《connectionless》 服 务 ， 因 为 UDP 客 户 与 服务 器 之 间 不 必 存 在 
任何 长 期 的 关系 。 举 例 来 说 ， 一 个 UDP 客户 可 以 创建 一 个 套 接 字 并 发 送 一 个 数据 报 给 一 个 给 定 
的 服务 器 ， 然 后 立即 用 同一 个 套 接 字 发 送 另 一 个 数据 报 给 另 一 个 服务 器 。 同 样 地 ， 一 个 UDP 服 
务 器 可 以 用 同一 个 UDP 套 接 字 从 若干 个 不 同 的 客户 接收 数据 报 ， 每 个 客户 一 个 数据 报 。 


24 ”传输 控制 协议 (TCP) —— 


由 TCP 向 应 用 进程 提供 的 服务 不 同 于 由 UDP 提供 的 服务 。TCP 在 RFC 793 [Postel 1981c] 
中 有 详细 说 明 , 然后 由 RFC 1323[ Jacobson, Braden, and Borman 1992 ], RFC 2581[Allman, Paxson, 
and Stevens 1999]、RFC 2988 [ Paxson and Allman 2000] 和 RFC 3390 [Allman, Floyd, and Partridge 
2002] 加 以 更 新 。 首 先 ，TCP 提 供 客户 与 服务 器 之 间 的 连接 (connection)。TCP 客 户 先 与 某 个 给 
定 服务 器 建立 一 个 连接 ， 再 跨 该 连接 与 那个 服务 器 交换 数据 ， 然 后 终止 这 个 连接 。 

其 次 ，TCP 还 提供 了 可 人 靠 性 《reliability)。 当 TCP 向 另 一 端 发 送 数 据 时 ， 它 要 求 对 端 返回 一 
个 确认 。 如 果 没 有 收 到 确认 ，TCP 就 自动 重 传 数据 并 等 待 更 长 时 间 。 在 数 次 重 传 失败 后 ，TCP 
才 放 弃 ， 如 此 在 尝试 发 送 数据 上 所 花 的 总 时 间 一 般 为 4 一 10 分 钟 〈 依 赖 于 具体 实现 )。 

注意 ，TCP 并 不 保证 数据 一 定 会 被 对 方 端点 接收 ， 因 为 这 是 不 可 能 做 到 的 。 如 果 有 可 能 ， 
TCP 就 把 数据 递送 到 对 方 端点 ， 否 则 就 ( 通过 放弃 重 传 并 中 断 连 接 这 一 手段 ) 通知 用 户 。 这 
么 说 来 ，TCP 也 不 能 被 描述 成 是 100% 可 靠 的 协议 ， 它 提供 的 是 数据 的 可 靠 递送 或 故障 的 可 靠 
通知 。 

TCP 含 有 用 于 动态 估算 客户 和 服务 器 之 间 的 往返 时 间 (round-trip time, RTT) 的 算法 ， 以 
便 它 知道 等 待 一 个 确认 需要 多 少时 间 。 举 例 来 说 ，RTT 在 一 个 局 域 网 上 大 约 是 几 毫秒 ， 跨 越 一 
个 广域网 则 可 能 是 数秒 钟 。 另 外 ， 因 为 RTT 受 网 络 流通 各 种 变化 因素 影响 ，TCP 还 持续 估算 一 
个 给 定 连接 的 RTT。 

TCP 通 过 给 其 中 每 个 字 节 关 联 一 个 序列 号 对 所 发 送 的 数据 进行 排序 (sequencing)。 举 例 来 
说 ， 假 设 一 个 应 用 写 2048 字 节 到 一 个 TCP 套 接 字 ， 导 致 TCP 发 送 2 个 分 节 : 第 一 个 分 节 所 含 数据 
的 序列 号 为 1 一 1024， 第 二 个 分 节 所 含 数据 的 序列 号 为 1025 一 2048。( 分 节 是 TCP 传 递 给 IP 的 数 
据 单元 。) 如 果 这 些 分 节 非 顺序 到 达 ， 接 收 端 TCP 将 先 根 据 它 们 的 序列 号 重新 排序 ， 再 把 结果 数 
据 传 递 给 接收 应 用 。 如 果 接 收 端 TCP 接 收 到 来 自 对 端的 重复 数据 (譬如 说 对 端 认为 一 个 分 节 已 
丢失 并 因此 重 传 , 而 这 个 分 节 并 没有 真正 丢失 , 只 是 网 络 通信 过 于 拥挤 ), 它 可 以 (根据 序列 号 ) 
判定 数据 是 重复 的 ， 从 而 丢弃 重复 数据 。 

UDP 不 提供 可 靠 性 。UDP 本 身 不 提供 确认 、 序 列 号 、RTT 估 算 、 超 时 和 重 传 等 机 制 。 如 
果 一 个 UDP 数据 报 在 网 络 中 被 复制 ， 两 份 副本 就 可 能 都 递送 到 接收 端的 主机 。 同 样 地 ， 如 果 
一 个 UDP 客户 发 送 两 个 数据 报到 同一 个 目的 地 ， 它 们 可 能 被 网 络 重新 排序 ， 凑 倒 顺 序 后 到 达 
目的 地 。UDP 应 用 必须 处 理 所 有 这 些 情 况 ， 在 22.5 节 中 我 们 将 展示 如 何 处 理 。 

再 次 ，TCP 提 供 流量 控制 Clow control)。TCP 总 是 告知 对 端 在 任何 时 刻 它 一 次 能 够 从 对 端 
接收 多 少 字 节 的 数据 ， 这 称 为 通告 窗口 (advertised window )。 在 任何 时 刻 ， 该 窗口 指出 接收 组 
冲 区 中 当前 可 用 的 空间 量 ， 从 而 确保 发 送 端 发 送 的 数据 不 会 使 接收 缓冲 区 滋 出 。 该 窗口 时 刻 动 
态 变 化 当 接 收 到 来 自发 送 端的 数据 时 ， 窗 口 大 小 就 减 小 ， 但 是 当 接 收 端 应 用 从 缓冲 区 中 读 取 
数据 时 ， 窗 口 大 小 就 增 大 。 通 告 窗口 大 小 减 小 到 0 是 有 可 能 的 : 当 TCP 对 应 某 个 套 接 字 的 接收 组 
冲 区 已 满 ， 导 致 它 必 须 等 待 应 用 从 该 缓冲 区 读 取 数据 时 ， 方 能 从 对 端 再 接收 数据 。 
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UDP 不 提供 流量 控制 。 如 我 们 将 在 8.13 节 所 示 ， 让 较 快 的 UDP 发 送 端 以 一 个 UDP 接收 端 
难以 跟 上 的 速率 发 送 数据 报 是 非常 容易 的 。 


最 后 ，TCP 连 接 是 全 双 工 的 〈fbll-duplex)。 这 意味 着 在 一 个 给 定 的 连接 上 应 用 可 以 在 任何 
时 刻 在 进出 两 个 方向 上 本 发 送 数据 又 接收 数据 。 因 此 ，TCP 必 须 为 每 个 数据 流 方 向 跟踪 诸如 序 
列 号 和 通告 窗口 大 小 等 状态 信息 。 建 立 一 个 全 双 工 连接 后 ， 需 要 的 话 可 以 把 它 转 换 成 一 个 单 工 
连接 ( 见 6.6 节 )。 


UDP 可 以 是 全 双 工 的 。 


2.5_ 流 控制 传输 协议 (SCTP) - 


SCTP 提 供 的 服务 与 UDP 和 TCP 提 供 的 类 似 。SCTP 在 RFC 2960 [Stewart et al. 2000] 中 详细 
说 明 , 并 由 RFC 3309 [ Stone, Stewart, and Otis 2002 ] 加 以 更 新 。 RFC 3286 [Ong and Yoakum 2002 ] 
给 出 了 SCTP 的 简要 介绍 。SCTP 在 客户 和 服务 器 之 间 提 供 关 联 (association)， 并 像 TCP 那 样 给 应 
用 提供 可 靠 性 、 排 序 、 流 量 控制 以 及 全 双 工 的 数据 传送 。SCTP 中 使 用 “关联 ”一 词 取 代 “ 连 接 ” 
是 为 了 避免 这 样 的 内 涵 : 一 个 连接 只 涉及 两 个 IP 地 址 之 间 的 通信 。 一 个 关联 指 代 两 个 系统 之 间 
的 一 次 通信 ， 它 可 能 因为 SCTP 支 持 多 宿 而 涉及 不 止 两 个 地 址 。 

与 TCP 不 同 的 是 ，SCTP 是 面向 消息 的 〈《message-oriented)。 它 提供 各 个 记录 的 按 序 递 送 服 
务 。 与 UDP 一 样 ， 由 发 送 端 写 入 的 每 条 记录 的 长 度 随 数据 一 道 传递 给 接收 端 应 用 。 

SCTP 能 够 在 所 连接 的 端点 之 间 提 供 多 个 流 ， 每 个 流 各 自 可 靠 地 按 序 递送 消息 。 一 个 流 上 某 
个 消息 的 丢失 不 会 阻塞 同一 关联 其 他 流 上 消息 的 投递 。 这 种 做 法 与 TCP 正 好 相反 ， 就 TCP 而 言 ， 
在 单一 字 节 流 中 任何 位 置 的 字 节 丢失 都 将 阻塞 该 连接 上 其 后 所 有 数据 的 递送 ， 直 到 该 丢失 被 修 
复 为 止 。 

SCTP 还 提供 多 宿 特性 ， 使 得 单个 SCTP 端 点 能 够 支持 多 个 IP 地 址 。 该 特性 可 以 增强 应 对 网 
络 故障 的 健壮 性 。 一 个 端点 可 能 有 多 个 宛 余 的 网 络 连接 ， 每 个 网 络 又 可 能 有 各 自 接 入 因特网 基 
础 设施 的 连接 。 当 该 端点 与 男 一 个 端点 建立 一 个 关联 后 , 如 果 它 的 某 个 网 络 或 某 个 跨越 因特网 的 
通路 发 生 故 障 , SCTP 就 可 以 通过 切换 到 使 用 已 与 该 关联 相关 的 另 一 个 地 址 来 规避 所 发 生 的 故障 。 

类 似 的 健壮 性 在 路 由 协议 的 辅助 下 也 可 以 从 TCP 中 获得 。 举例 来 说 ， 由 iBGP 实 现 的 同一 
域内 的 BGP 连 接 往往 把 赋予 路 由 器 内 某 个 虚拟 接口 的 多 个 地 址 用 作 TCP 连 接 的 端点 。 该 域 的 
路 由 协议 确保 两 个 路 由 器 之 间 只 要 存在 一 条 路 由 ， 该 路 由 就 会 被 用 上 ， 从 而 保证 这 两 个 路 由 
器 之 间 的 BGP 连 接 可 用 ; 要 是 使 用 属于 某 个 物理 接口 的 地 址 来 建立 BGP 连 接 ， 该 物理 接口 又 
变 得 不 工作 了 ， 这 一 点 就 不 可 能 做 到 。SCTP 的 多 宿 特 性 允许 主机 ( 而 不 仅仅 是 路 由 器 ) 也 多 
宿 ， 而 且 允 许多 宿 跨 越 不 同 的 服务 供应 商 发 生 ， 这 些 基 于 路 由 的 TCP 多 宿 方法 都 无 法 做 到 。 





2.6 TCP 连接 的 建立 和 终止 

为 帮助 大 家 理解 connect、accept 和 close 这 3 个 函数 并 使 用 netstat 程 序 调试 TCP 应 用 ， 
我 们 必须 了 解 TCP 连 接 如 何 建立 和 终止 ， 并 人 掌握 TCP 的 状态 转换 图 。 
2.6.1 三 路 握手 

建立 一 个 TCP 连 接 时 会 发 生 下 述 情形 。 
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(1) 服务 器 必须 准备 好 接受 外 来 的 连接 。 这 通常 通过 调用 socket 、bind 和 1isten 这 3 个 消 
数 来 完成 ， 我 们 称 之 为 被 动 打 开 (passive open). 

(2) 客户 通过 调用 connect 发 起 主动 打开 (active open)。 这 导致 客户 TCP 发 送 一 个 SYN (IA 
步 ) 分 节 ， 它 告诉 服务 器 客户 将 在 〈 待 建立 的 ) 连接 中 发 送 的 数据 的 初始 序列 号 。 通 常 SYN 分 
节 不 携带 数据 ， 其 所 在 IP 数 据 报 只 含有 一 个 IP 首 部 、 一 个 TCP 首 部 及 可 能 有 的 TCP 选 项 (我 们 稍 
后 讲解 )。 

(3) 服务 器 必须 确认 (ACK) 客户 的 SYN， 同 时 自己 也 得 发 送 一 个 SYN 分 节 ， 它 含有 服务 
器 将 在 同一 连接 中 发 送 的 数据 的 初始 序列 号 。 服 务 器 在 单个 分 节 中 发 送 SYN 和 对 客户 SYN 的 
ACK (确认 )。 

(4) 客户 必须 确认 服务 器 的 SYN。 

这 种 交换 至 少 需要 3 个 分 组 ， 因 此 称 之 为 TCP 的 三 路 握手 〈three-way handshake)。 图 2-2 展 
示 了 所 交换 的 3 个 分 节 。 


客户 服务 器 


socket, bind, listen 
socket 


connect (阻塞 ) 《被 动 打 开 ) 


SYN 
(主动 打开 ) accept (阻塞 


connect 返 回 accept 返 回 


read〈 阻 塞 ) 


图 2-2 TCP 的 三 路 握手 


图 2-2 给 出 的 客户 的 初始 序列 号 为 J， 服 务 器 的 初始 序列 号 为 K。ACK 中 的 确认 号 是 发 送 这 
个 ACK 的 一 端 所 期 待 的 下 一 个 序列 号 。 因 为 SYN 占 据 一 个 字 节 的 序列 号 空间 ， 所 以 每 一 个 SYN 
的 ACK 中 的 确认 号 就 是 该 SYN 的 初始 序列 号 加 1。 类 似 地 ， 每 一 个 FIN 《表示 结束 ) 的 ACK 中 的 
确认 号 为 该 FIN 的 序列 号 加 1。 


建立 TCP 连 接 就 好 比 一 个 电话 系统 [Nemeth 1997] . socket BKFM FA BETA, 
bind 函 数 是 在 告诉 别人 你 的 电话 号 码 ， 这 样 他 们 可 以 呼叫 你 。1listen 函 数 是 打开 电话 振 铃 ， 
这 样 当 有 一 个 外 来 呼叫 到 达 时 ， 你 就 可 以 听 到 。connect 函 数 要 求 我 们 知道 对 方 的 电话 号 码 
并 拔 打 它 。accept 函 数 发 生 在 被 呼叫 的 人 应 答 电话 之 时 。 由 accept 返 回 客户 的 标识 (MA 
户 的 耳 地 址 和 端口 号 ) 类 似 于 让 电话 机 的 呼叫 者 ID 功能 部 件 显示 呼叫 者 的 电话 号 码 。 然 而 两 
者 的 不 同 之 处 在 于 accept 只 在 连接 建立 之 后 返回 客户 的 标识 , 而 呼叫 者 ID 功能 部 件 却 在 我 们 
选择 应 答 或 不 应 答 电 话 之 前 显示 呼叫 者 的 电话 号 码 。 如 果 使 用 域名 系统 DNS ( 见 第 11 章 ) ， 
它 就 提供 了 一 种 类 似 于 电话 薄 的 服务 .。 getaddrinfo 类 似 于 在 电话 薄 中 查找 某 个 人 的 电话 号 
码 ，getnameinfo 则 类 似 于 有 一 本 按照 电话 号 码 而 不 是 按照 用 户 名 排序 的 电话 薄 。 


2.6.2 TCP 选项 


每 一 个 SYN 可 以 含有 多 个 TCP 选 项 。 下 面 是 常用 的 TCP 选 项 。 

e MSS 选 项 。 发 送 SYN 的 TCP 一 端 使 用 本 选项 通告 对 端 它 的 最 大 分 节 大 小 【maximum 
segment size》 即 MSS， 也 就 是 它 在 本 连接 的 每 个 TCP 分 节 中 愿意 接受 的 最 大 数据 量 。 发 
送 端 TCP 使 用 接收 端的 MSS 值 作为 所 发 送 分 节 的 最 大 大 小 ,我 们 将 在 7.9 节 看 到 如 何 使 用 
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TCP_MAXSEG 套 接 字 选项 提取 和 设置 这 个 TCP 选 项 。 

e 窗口 规模 选项 。TCP 连 接任 何 一 端 能 够 通告 对 端的 最 大 窗口 大 小 是 65535， 因 为 在 TCP 
首部 中 相应 的 字段 占 16 位 。 然 而 当今 因特网 上 业已 普及 的 高 速 网 络 连接 (45 Mbit/s 或 更 
快 ， 如 RFC 1323 [Jacobson, Braden, and Borman 1992] 所 述 ) 或 长 延迟 路 径 〈 卫 星 链 路 ) 
要 求 有 更 大 的 窗口 以 获得 尽 可 能 大 的 吞 叶 量 。 这 个 新 选项 指定 TCP 首 部 中 的 通告 窗口 必 
WERK GEK) 的 位 数 (0 一 14)， 因 此 所 提供 的 最 大 窗口 接近 1 GB (65535 X25). 
在 一 个 TCP 连 接 上 使 用 窗口 规模 的 前 提 是 它 的 两 个 端 系统 必须 都 支持 这 个 选项 。 我 们 将 
在 7.5 节 看 到 如 何 使 用 So_RCVBUF 套 接 字 选 项 影响 这 个 TCP 选 项 。 


为 提供 与 不 支持 这 个 选项 的 较 早 实现 间 的 互 操作 性 ， 需 应 用 如 下 规则 。TCP 可 以 作为 主 
动 打 开 的 部 分 内 容 随 它 的 SYN 发 送 该 选项 , 但 是 只 在 对 端 也 随 它 的 SYN 发 送 该 选项 的 前 提 下 ， 
它 才 能 扩大 自己 窗口 的 规模 。 类 似 地 ， 服 务 器 的 TCP 只 有 接收 到 随 客户 的 SYN 到 达 的 该 选项 
时 ， 才 能 发 送 该 选项 。 本 逻辑 假定 实现 忽略 它们 不 理解 的 选项 ， 如 此 忽略 是 必需 的 要 求 ， 也 
已 普遍 满足 ， 但 无 法 保证 所 有 实现 都 满足 此 要 求 。 


e 时 间 玲 选项 。 这 个 选项 对 于 高 速 网 络 连接 是 必要 的 ， 它 可 以 防止 由 失 而 复 现 的 分 组 ?可 
能 造成 的 数据 损坏 。 它 是 一 个 较 新 的 选项 ， 也 以 类 似 于 窗口 规模 选项 的 方式 协商 处 理 。 
作为 网 络 编程 人 员 ， 我 们 无 需 考 虑 这 个 选项 。 

TCP 的 大 多 数 实现 都 支持 这 些 常 用 选项 。 后 两 个 选项 有 时 称 为 “RFC 1323 选 项 *， 因 为 它们 
是 在 RFC 1323 [Jacobson, Braden, and Borman 1992] 中 说 明 的 。 既 然 高 带宽 或 长 延迟 的 网 络 被 
称 为 “长 胖 管 道 ”(long fatpipe)， 这 两 个 选项 也 称 为 “长 胖 管 道 选项 *。TCPv1 的 第 24 章 对 这 些 
选项 有 详细 的 叙述 。 


2.6.3 TCP 连接 终止 


TCP 建 立 一 个 连接 需 3 个 分 节 ， 终 止 一 个 连接 则 需 4 个 分 节 。 

(D) 某 个 应 用 进程 首先 调用 close， 我 们 称 该 端 执行 主动 关闭 Cactive close)。 该 端的 TCP 
于 是 发 送 一 个 FIN 分 节 ， 表 示 数 据 发 送 完 毕 。 

(2) 接收 到 这 个 FIN 的 对 端 执行 被 动 关闭 (passive close)。 这 个 FIN 由 TCP 确 认 。 它 的 接收 也 
作为 一 个 文件 结束 符 〈end-of-file) 传递 给 接收 端 应 用 进程 ( 放 在 已 排队 等 候 该 应 用 进程 接收 
的 任何 其 他 数据 之 后 )， 因 为 FIN 的 接收 意味 着 接收 端 应 用 进程 在 相应 连接 上 再 无 额外 数据 可 
接收 。 

(3) 一 段 时 间 后 , 接收 到 这 个 文件 结束 符 的 应 用 进程 将 调用 close 关 闭 它 的 套 接 字 。 这 导致 
它 的 TCP 也 发 送 一 个 FIN。 

(4) 接收 这 个 最 终 FIN 的 原 发 送 端 TCP〈 即 执行 主动 关闭 的 那 一 端 ) 确认 这 个 FIN。 

赋 然 每 个 方向 都 需要 一 个 FIN 和 一 个 ACK, 因此 通常 需要 4 个 分 节 。 我 们 使 用 限定 词 “ 通 常 ” 
是 因为 : 某 些 情形 下 步骤 1 的 FIN 随 数据 一 起 发 送 ， 另 外 ， 步 骤 2 和 步骤 3 发 送 的 分 节 都 出 自 执行 
被 动 关闭 那 一 端 ， 有 可 能 被 合并 成 一 个 分 节 。 图 2-3 展 示 了 这 些 分 组 。 


由“ 失 而 复 现 的 分 组 ”这 个 译 法 出 自 第 2 版 , 这 一 版 中 改 为 “陈旧 的 、 延 迟 的 或 重复 的 分 节 ” 却 没 能 准确 表达 Stevens 
先生 的 原意 。 失 而 复 现 的 分 组 并 不 是 超时 重 传 的 分 组 ， 而 是 由 暂时 的 路 由 原因 造成 的 迷途 的 分 组 。 当 路 由 稳定 
后 ， 它 们 又 会 正常 到 达 目 的 地 ， 其 前 提 是 它们 在 此 前 尚未 被 路 由 器 丢弃 。 高 速 网 络 中 32 位 的 序列 号 短 时 间 内 就 
可 能 循环 一 轮 重新 使 用 ， 若 不 用 时 间 惟 选项 ， 失 而 复 现 的 分 组 所 承载 的 分 节 可 能 与 再 次 使 用 相同 序列 号 的 真正 
分 节 发 生 混 消 。 一 一 详 者 注 


34 4 23 传输 层 : TCP. UDP 和 SCTP 


客户 服务 器 


close 


Gia ) 
(主动 关闭 ) ipiis 


read 返 回 0 


close 








图 2-3 TCP 连接 关闭 时 的 分 组 交换 


类 似 SYN， 一 个 FIN 也 占据 1 个 字 节 的 序列 号 空间 。 因 此 ， 每 个 FIN 的 ACK 确 认 号 就 是 这 个 
FIN 的 序列 号 加 1。 

在 步骤 2 与 步骤 3 之 间 ， 从 执行 被 动 关闭 一 端 到 执行 主动 关闭 一 端 流动 数据 是 可 能 的 。 这 称 
为 半 关 闭 (half-close)， 我 们 将 在 6.6 节 随 shutaown 函 数 再 详细 介绍 。 

当 套 接 字 被 关闭 时 ， 其 所 在 端 TCP 各 自发 送 了 一 个 FIN。 我 们 在 图 中 指出 ,这 是 由 应 用 进程 
调用 close 而 发 生 的 ， 不 过 需 认 识 到 ， 当 一 个 Unix 进 程 无 论 自愿 地 (调用 exit 或 从 main 函 数 返 
回 ) 还 是 非 自 愿 地 《〈 收 到 一 个 终 正 本 进程 的 信号 ) 终止 时 ， 所 有 打开 的 描述 符 都 被 关闭 ， 这 也 
导致 仍然 打开 的 任何 TCP 连 接 上 也 发 出 一 个 FIN。 

图 2-3 展 示 了 客户 执行 主动 关闭 的 情形 ， 不 过 我 们 指出 ,无 论 是 客户 还 是 服务 器 ， 任 何 一 端 
都 可 以 执行 主动 关闭 。 通 常情 况 是 客户 执行 主动 关闭 ,但 是 某 些 协议 (譬如 值得 注意 的 HTTP/1.0) 
却 由 服务 器 执行 主动 关闭 。 


2.6.4 TCP 状态 转换 图 


TCP 涉 及 连接 建立 和 连接 终止 的 操作 可 以 用 状态 转换 图 (state transition diagram) 来 说 明 ， 
如 图 2-4 所 示 。 
TCP 为 一 个 连接 定义 了 11 种 状态 ， 并 且 TCP 规 则 规定 如 何 基于 当前 状态 及 在 该 状态 下 所 接 
收 的 分 节 从 一 个 状态 转换 到 另 一 个 状态 。 举 例 来 说 ， 当 某 个 应 用 进程 在 CLOSED 状 态 下 执行 主 
动 打 开 时 ，TCP 将 发 送 一 个 SYN， 且 新 的 状态 是 SYN_SENT。 如 果 这 个 TCP 接 着 接收 到 一 个 带 
ACK 的 SYN， 它 将 发 送 一 个 ACK， 且 新 的 状态 是 ESTABLISHED。 这 个 最 终 状 态 是 绝 大 多 数 数 
据 传 送 发 生 的 状态 。 
自 ESTABLISHED 状 态 引 出 的 两 个 箭头 处 理 连 接 的 终止 。 如 果 某 个 应 用 进程 在 接收 到 一 个 
FIN 之 前 调用 close (主动 关闭 )， 那 就 转换 到 FIN_WAIT_ 1 状态 。 但 如 果 某 个 应 用 进程 在 
ESTABLISHED 状 态 期 间接 收 到 一 个 FIN 〈 被 动 关闭 )， 那 就 转换 到 CLOSE_WAIT 状 态 。 
我 们 用 粗 实 线 表 示 通 常 的 客户 状态 转换 ， 用 粗 虚线 表示 通常 的 服务 器 状态 转换 。 图 中 还 注 
明 存 在 两 个 我 们 未 曾 讨 论 的 转换 : 一 个 为 同时 打开 (simultaneous open)， 发 生 在 两 端 几乎 同时 
发 送 SYN 并 且 这 两 个 SYN 在 网 络 中 交错 的 情形 下 ， 另 一 个 为 同时 关闭 CGimultaneous close), X 
生 在 两 端 几乎 同时 发 送 FIN 的 情形 下 。TCPv1 的 第 18 章 中 有 这 两 种 情况 的 例子 和 讨论 ,它们 是 可 
能 发 生 的 ， 不 过 非常 罕见 。 
展示 状态 转换 图 的 原因 之 一 是 给 出 11 种 TCP 状 态 的 名 称 。 这 些 状 态 可 使 用 netstat 显 示 ， 
39] “ 它 是 一 个 在 调试 客户 /服务 器 应 用 时 很 有 用 的 工具 。 我 们 将 在 第 5 章 中 使 用 netstat 去 监视 状态 的 
40 变化 。 
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图 2-4 ” TCP 状态 转换 图 


2.6.5 ”观察 分 组 


图 2-5 展 示 一 个 完整 的 TCP 连 接 所 发 生 的 实际 分 组 交换 情况 ， 包 括 连接 建立 、 数 据 传送 和 连 


接 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历经 的 TCP 状 态 。 
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本 例 中 的 客户 通告 一 个 信 为 536 的 MSS (表明 该 客户 只 实现 了 最 小 重组 缓冲 区 大 小 )， 服 务 
器 通告 一 个 值 为 1460 的 MSS〔 以 太 网 上 IPv4 的 典型 值 )。 不 同方 向 上 MSS 值 不 相同 不 成 问题 ( 见 
习题 2.5 )。 


客户 服务 器 
socket, bind, listen 
Socket LISTEN ( 被 动 打开 ) 
connect ( [IH 3K ) accept( [H3K ) 
(主动 打开 ) SYN SENT SYN. RCVD 
ESTABLISHED 
cornnect 返 回 
ESTABLISHED 
< 客户 构造 请 求 > accept 返回 
write read( 阻塞 ) 
read (阻塞 ) read( 返回 ) 
< 服务 器 处 理 请 求 > 
write([H3E) 
d 
readifiil zu 


close 


C 主动 关闭 ?FIN. WAIT 1 CLOSE. WAIT ( 被 动 关闭 ) 


read 返 回 0 
FIN_WAIT_2 

close 
TIME_WAIT LAST_ACK 

CLOSED 





Kd2-5 _TCP 连 接 的 分 组 交换 


一 旦 建立 一 个 连接 ， 客 户 就 构造 一 个 请 求 并 发 送 给 服务 器 。 这 里 我 们 假设 该 请 求 适合 于 单 
个 TCP 分 节 ( 即 请 求 大 小 小 于 服务 器 通告 的 值 为 1460 字 节 的 MSS)。 服 务 器 处 理 该 请 求 并 发 送 一 
个 应 答 ， 我 们 假设 该 应 答 也 适合 于 单个 分 节 (本 例 即 小 于 536 字 节 )。 图 中 使 用 粗 篆 头 表示 这 两 
个 数据 分 节 。 注 意 ， 服 务 器 对 客户 请 求 的 确认 是 伴随 其 应 答 发 送 的 。 这 种 做 法 称 为 捕 带 
(piggybacking)， 它 通常 在 服务 器 处 理 请 求 并 产生 应 答 的 时 间 少 于 200 ms 时 发 生 。 如 果 服 务 器 耗 
用 更 长 时 间 ， 辟 如 说 1 s8， 那 么 我 们 将 看 到 先是 确认 后 是 应 答 。(TCP 数 据 流 机 理 在 TCPv1 的 第 19 
章 和 第 20 章 中 详细 叙述 。) 

图 中 随后 展示 的 是 终止 连接 的 4 个 分 节 。 注 意 ， 执 行 主 动 关闭 的 那 一 端 〈 本 例子 中 为 客户 ) 
进入 我 们 将 在 下 一 节 中 讨论 的 TIME_WAIT 状 态 。 

图 2-5 中 值得 注意 的 是 , 如 果 该 连接 的 整个 目的 仅仅 是 发 送 一 个 单 分 节 的 请 求 和 接收 一 个 单 
分 节 的 应 答 ， 那 么 使 用 TCP 有 8 个 分 节 的 开销 。 如 果 改 用 UDP， 那 么 只 需 交 换 两 个 分 组 : 一 个 承 
载 请 求 ， 一 个 承载 应 答 。 然 而 从 TCP 切 换 到 UDP 将 丧失 TCP 提 供给 应 用 进程 的 全 部 可 靠 性 ， 迫 
使 可 靠 服务 的 一 大 堆 细 节 从 传输 层 (TCP) 转移 到 UDP 应 用 进程 。TCP 提 供 的 另 一 个 重要 特性 
即 拥塞 控制 也 必须 由 UDP 应 用 进程 来 处 理 。 尽 管 如 此 ， 我 们 仍然 需要 知道 许多 网 络 应 用 是 使 用 
UDP 构建 的 ， 因 为 它们 需要 交换 的 数据 量 较 少 ， 而 UDP 避免 了 TCP 连 接 建 立 和 终止 所 需 的 开销 。 
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2.7 TIME WAIT 状态 

毫 无 疑问 ，TCP 中 有 关 网 络 编程 最 不 容易 理解 的 是 它 的 TIME_WAIT 状 态 。 在 图 2-4 中 我 们 
看 到 执行 主动 关闭 的 那 端 经 历 了 这 个 状态 。 该 端点 停留 在 这 个 状态 的 持续 时 间 是 最 长 分 节 生 命 
期 (maximum segment lifetime, MSL) 的 两 倍 ， 有 时 候 称 之 为 2MSL。 

任何 TCP 实 现 都 必须 为 MSL 选 择 一 个 值 。RFC 1122 [Braden 1989] 的 建议 值 是 2 分 钟 ， 不 
过 源 自 Berkeley 的 实现 传统 上 改 用 30 秒 这 个 值 。 这 意味 着 TIME_WAIT 状 态 的 持续 时 间 在 1 分 钟 到 
4 分 钟 之 间 。MSL 是 任何 IP 数 据 报 能 够 在 因特网 中 存活 的 最 长 时 间 。 我 们 知道 这 个 时 间 是 有 限 的 ， 
因为 每 个 数据 报 含有 一 个 称 为 跳 限 (hop limit〉 的 8 位 字段 ( 见 图 A-1 中 IPv4 的 TIL 字段 和 图 A-2 
中 IPv6 的 跳 限 字段 )， 它 的 最 大 值 为 2355。 尽 管 这 是 一 个 跳 数 限制 而 不 是 真正 的 时 间 限 制 ， 我 们 
仍然 假设 : 具有 最 大 跳 限 〈255) 的 分 组 在 网 络 中 存在 的 时 间 不 可 能 超过 MSL 秒 。 

分 组 在 网 络 中 “迷途 ”通常 是 路 由 异常 的 结果 。 某 个 路 由 器 崩溃 或 菜 两 个 路 由 器 之 间 的 某 
个 链 路 断 开 时 ， 路 由 协议 需 花 数秒 钟 到 数 分 钟 的 时 间 才 能 稳定 并 找 出 另 一 条 通路 。 在 这 段 时 间 
内 有 可 能 发 生路 由 循环 〈 路 由 器 A 把 分 组 发 送 给 路 由 器 B， 而 B 再 把 它们 发 送 回 A)， 我 们 关心 的 
分 组 可 能 就 此 陷入 这 样 的 循环 。 假 设 迷途 的 分 组 是 一 个 TCP 分 节 ， 在 它 迷 途 期 间 ， 发 送 端 TCP 
超时 并 重 传 该 分 组 ， 而 重 传 的 分 组 却 通过 某 条 候选 路 径 到 达 最 终 目的 地 。 然 而 不 久 后 〈 自 迷途 
的 分 组 开始 其 旅程 起 最 多 MSL 秒 以 内 〉 路 由 循环 修复 ， 早 先 迷失 在 这 个 循环 中 的 分 组 最 终 也 被 
送 到 目的 地 。 这 个 原来 的 分 组 称 为 迷途 的 重复 分 组 (lost duplicate ) 或 漫游 的 重复 分 组 (wandering 
duplicate)。TCP 必 须 正 确 处 理 这 些 重复 的 分 组 。 

TIME_WAIT 状 态 有 两 个 存在 的 理由 : 

(1) 可 靠 地 实现 TCP 全 双 工 连接 的 终止 ; 

(2) 允许 老 的 重复 分 节 在 网 络 中 消逝 。 

第 一 个 理由 可 以 通过 查看 图 2-5 并 假设 最 终 的 ACK 丢 失 了 来 解释 .服务 器 将 重新 发 送 它 的 最 
终 那个 FIN， 因 此 客户 必须 维护 状态 信息 ， 以 允许 它 重 新 发 送 最 终 那个 ACK。 要 是 客户 不 维护 
状态 信息 ， 它 将 响应 以 一 个 RST 〈 另 外 一 种 类 型 的 TCP 分 节 )， 该 分 节 将 被 服务 器 解释 成 一 个 错 
误 。 如 果 TCP 打 算 执行 所 有 必要 的 工作 以 彻底 终止 某 个 连接 上 两 个 方向 的 数据 流 〈 即 全 双 工 关 
闭 )， 那 么 它 必须 正确 处 理 连 接 终止 序列 4 个 分 节 中 任何 一 个 分 节 丢 失 的 情况 。 本 例子 也 说 明了 
为 什么 执行 主动 关闭 的 那 一 端 是 处 于 TIME_WAIT 状 态 的 那 一 端 : 因为 可 能 不 得 不 重 传 最 终 那 个 
ACK 的 就 是 那 一 端 。 

为 理解 存在 TIME_WAIT 状 态 的 第 二 个 理由 ， 我 们 假设 在 12.106.32.254 的 1500 端 口 和 
206.168.112.219 的 21 端 口 之 间 有 一 个 TCP 连 接 。 我 们 关闭 这 个 连接 ， 过 一 段 时 间 后 在 相同 的 IP 
地 址 和 端口 之 间 建 立 另 一 个 连接 。 后 一 个 连接 称 为 前 一 个 连接 的 化 身 (incamation);， 因 为 它们 
的 IP 地 址 和 端口 号 都 相同 。TCP 必 须 防 止 来 自 茶 个 连接 的 老 的 重复 分 组 在 该 连接 已 终止 后 再 现 ， 
从 而 被 误解 成 属于 同一 连接 的 某 个 新 的 化 身 。 为 做 到 这 一 点 ，TCP 将 不 给 处 于 TIME_WAIT 状 态 
的 连接 发 起 新 的 化 身 。 既 然 TIME_WAIT 状 态 的 持续 时 间 是 MSL 的 2 倍 ， 这 就 足以 让 某 个 方向 上 
的 分 组 最 多 存活 MSL 秒 即 被 丢弃 ， 另 一 个 方向 上 的 应 答 最 多 存活 MSL 秒 也 被 丢弃 。 通 过 实施 这 
个 规则 ， 我 们 就 能 保证 每 成 功 建立 一 个 TCP 连 接 时 ， 来 自 该 连接 先前 化 身 的 老 的 重复 分 组 都 已 
在 网 络 中 消逝 了 。 

这 个 规则 存在 一 个 例外 : 如 果 到 达 的 SYN 的 序列 号 大 于 前 一 化 身 的 结束 序列 号 ， 源 自 
Berkeley 的 实现 将 给 当前 处 于 TIME WAIT 状态 的 连接 启动 新 的 化 身 。TCPvY2 第 958 ~ 959 页 对 
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这 种 情况 有 详细 的 叙述 。 它 要 求 服务 器 执行 主动 关闭 ， 因 为 接收 下 一 个 SYN 的 那 一 端 必须 处 
于 TIME_WAIT 状 态 。rsh 命 令 具 备 这 种 能 力 。RFC 1185 [ Jacobson, Braden, and Zhang 1990 ] 
讲述 了 有 关 这 种 情形 的 一 些 陷 阱 。 


2.8 SCTP 关联 的 建立 和 终止 OOO 


与 TCP 一 样 ，SCTP 也 是 面向 连接 的 ， 因 而 也 有 关联 的 建立 与 终止 的 握手 过 程 。 不 过 SCTP 
的 握手 过 程 不 同 于 TCP， 我 们 在 此 加 以 说 明 。 


2.8.1 四 路 握手 


建立 一 个 SCTP 关 联 的 时 候 会 发 生 下 述 情 形 〈 类 似 于 TCP )。 

(1) 服务 器 必须 准备 好 接受 外 来 的 关联 。 这 通常 通过 调用 socket、pbind 和 1isten 这 3 个 
函数 来 完成 ， 称 为 被 动 打 开 。 

(2) 客户 通过 调用 connect 或 者 发 送 一 个 隐 式 打开 该 关联 的 消息 进行 主动 打开 。 这 使 得 客 
户 SCTP 发 送 一 个 INIT 消 息 〈 初 始 化 )， 该 消息 告诉 服务 器 客户 的 下 地 址 清单 、 初 始 序 列 号 、 用 
于 标识 本 关联 中 所 有 分 组 的 起 始 标 记 、 客 户 请 求 的 外 出 流 的 数目 以 及 客户 能 够 支持 的 外 来 流 的 
数目 。 

(3) 服务 器 以 一 个 INIT ACK 消 息 确认 窜 户 的 INIT 消 息 ， 其 中 含有 服务 器 的 JP 地 址 清单 、 初 
始 序列 号 、 起 始 标记 、 服 务 器 请 求 的 外 出 流 的 数目 、 服 务 器 能 够 支持 的 外 来 流 的 数目 以 及 一 个 
状态 cookie。 状态 cookie 包 含 服 务 器 用 于 确信 本 关联 有 效 所 需 的 所 有 状态 , 它 是 数字 化 签名 过 的 ， 
以 确保 其 有 效 性 。 | 

(4) 客户 以 一 个 COOKIE ECHO 消 息 回 射 服务 器 的 状态 cookie。 除 COOKIE ECHO 人 外， 该 消 
息 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数据 。 

(5) 服务 器 以 一 个 COOKIE ACK 消 息 确认 客户 回 射 的 cookie 是 正确 的 ， 本 关联 于 是 建立 。 该 
消息 也 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数据 。 

以 上 交换 过 程 至 少 需 要 4 个 分 组 ， 因 此 称 之 为 SCTP 的 四 路 握手 (four-way handshake). P8 





2-6 展 示 了 这 4 个 分 节 。 
T 服务 器 
socket risen "Yin listen 
d edd INIT (7a,]) accept (BAS) 
Ta:COOKIE ACK CÓ e 





图 2-6 SCTP 的 四 路 握手 


SCTP 的 四 路 握手 在 很 多 方面 类 似 于 TCP 的 三 路 握手 ， 差 别 主 要 在 于 作为 SCTP 整 体 一 部 分 
的 cookie 的 生成 。INIT《〈 随 其 众多 参数 一 道 ) 承载 一 个 验证 标记 Ta 和 一 个 初始 序列 号 J。 在 关联 
的 有 效 期 内 ,验证 标记 Ta 必须 在 对 端 发 送 的 每 个 分 组 中 出 现 。 初始 序 列 号 J 用 作 承 载 用 户 数 据 的 
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DATA 块 的 起 始 序列 号 。 对 端 也 在 INIT ACK 中 承载 一 个 验证 标记 Tz， 在 关联 的 有 效 期 内 ， 验 证 
标记 Tz 也 必须 在 其 发 送 的 每 个 分 组 中 出 现 。 除 了 验证 标记 Tz 和 初始 序列 号 K 外 ，INIT 的 接收 端 
还 在 作为 响应 的 INITACK 中 提供 一 个 cookie C. 该 cookie 包 含 设 置 本 SCTP 关 联 所 需 的 所 有 状态 ， 
这 样 服务 器 的 SCTP 栈 就 不 必 保存 所 关联 客户 的 有 关 信息 。SCTP 关 联 设置 的 细节 参见 [Stewart 
and Xie 2001] 的 第 4 章 。 

四 路 握手 过 程 结束 时 ， 两 端 各 自选 择 一 个 主 目 的 地 址 (primary destination address)。 当 不 
存在 网 络 故障 时 ， 主 目的 地 址 将 用 作 数 据 要 发 送 到 的 默认 目的 地 。 

在 SCTP 中 使 用 四 路 握手 是 为 了 避免 一 种 将 在 4.5 节 讨论 的 拒绝 服务 攻击 。 


SCTP 使 用 cookie 的 四 路 握手 定形 了 一 种 防护 这 种 攻击 的 方法 。TCP 的 许多 实现 也 使 用 类 
似 的 方法 。 两 者 的 主要 差别 在 于 ，TCP 中 cookie 状 态 必须 编码 到 只 有 32 位 长 的 初始 序列 号 中 。 
SCTP 为 此 提供 了 一 个 任意 长 度 的 字段 ， 并 且 要 求实 施 基于 加 密 的 安全 性 以 防护 攻击 。 


2.8. ”关联 终止 

SCTP 不 像 TCP 那 样 允许 “ 半 关 闭 ” 的 关联 。 当 一 端 关闭 某 个 关联 时 ， 另 一 端 必须 停止 发 送 
新 的 数据 。 关 联 关闭 请 求 的 接收 端 发 送 完 已 经 排队 的 数据 《如 果 有 的 话 ) 后 ， 完 成 关联 的 关闭 。 
图 2-7 展 示 了 这 一 交换 过 程 。 


户 服务 器 
close 


(主动 关闭 ) (被 动 关闭 ) 


read 返回 0 


close 








图 2-7 SCTP 关 联 关 闭 时 的 分 组 交换 


SCTP 没 有 类 似 于 TCP 的 TIME_WAIT 状 态 ， 因 为 SCTP 使 用 了 验证 标记 。 所 有 后 续 块 都 在 捆 
绑 它们 的 SCTP 分 组 的 公共 首部 标记 了 初始 的 INIT 块 和 INIT ACK 块 中 作为 起 始 标 记 交 换 的 验证 
标记 ; 由 来 自 旧 连 接 的 块 通过 所 在 SCTP 分 组 的 公共 首部 间接 携带 的 验证 标记 对 于 新 连接 来 说 是 
不 正确 的 。 因 此 ，SCTP 通 过 放置 验证 标记 值 就 避免 了 TCP 在 TIME_WAIT 状 态 保 持 整个 连接 的 
做 法 。 
2.8.3 SCTP 状态 转换 图 


SCTP 涉 及 关联 建立 和 关联 终止 的 操作 可 以 用 状态 转换 图 (state transition diagram) 来 说 明 ， 
如 图 2-8 所 示 。 

与 图 2-4 一 样 ， 本 状态 机 中 从 一 个 状态 到 另 一 个 状态 的 转换 由 SCTP 规 则 基于 当前 状态 及 在 
该 状态 下 所 接收 的 块 规定 。 举 例 来 说 , 当 某 个 应 用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 , SCTP 
将 发 送 一 个 INIT， 且 新 的 状态 是 COOKIE-WAIT。 如 果 这 个 SCTP 接 着 接收 到 一 个 INITACK， 它 
将 发 送 一 个 COOKIE ECHO， 且 新 的 状态 是 COOKIE-ECHOED 。 如 果 该 SCTP 随 后 接收 到 一 个 
COOKIE ACK， 它 将 转换 成 ESTABLISHED 状 态 。 这 个 最 终 状 态 是 绝 大 多 数 数据 传送 发 生 点 的 
状态 ， 尽 管 DATA 块 也 可 以 由 COOKIE ECHO 块 或 COOKIE ACK 块 所 在 消息 捆绑 朱 带 。 
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接收 : INIT: 发 送 :INIT ACK 


-— 






















接收 : 有 效 的 COOKIE ECHO 
发 送 : COOKIE ACK 

接收 : INIT ACK 
发 送 : COOKIE ECHO 


接收 : SHUTDOWN ACK 
发 送 : SHUTDOWN COMPLETE 





COOKIE- 
ECHOED 





ESTABLISHED 


` 
~ 


数据 传送 状态 


PENDING 
RECEIVED 





不 再 有 未 决 数 据 


发 送 : SHUTDOWN 不 再 有 未 决 数据 
发 送 : SHUTDOWN ACK 







接收 : SHUTDOWN 
发 送 : SHUTDOWN ACK 








(同时 关闭 ) ACK SENZ, COMPLETE 
一 一 ee 表示 客户 的 正常 状态 转换 接收 : SHUTDOWN ACK 
一 一 一 -= 表示 服务 器 的 正常 状态 转换 发 送 : SHUTDOWN 
MH: ”表示 状态 转换 在 应 用 进程 发 起 操作 时 发 生 COMPLETE 


接收 : ”表示 状态 转换 在 接收 到 分 节 时 发 生 
发 送 : 表示 这 个 转换 发 送 什么 


图 2-8 SCTP 状 态 转换 图 








从 ESTABLISHED 状 态 引出 的 两 个 箭头 处 理 关 联 的 终止 。 如 果 某 个 应 用 进程 在 接收 到 一 个 
SHUTDOWN 之 前 调用 close (主动 关闭 )， 那 就 转换 到 SHUTDOWN-PENDING 状 态 。 和 否则 ， 如 


47\ 果 某 个 应 用 进程 在 ESTABLISHED 状 态 期 间接 收 到 一 个 SHUTDOWN (被 动 关 闭 )， 那 就 转换 到 
48 | SHUTDOWN-RECEIVED 状 态 。 
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2.8.4 ”观察 分 组 


图 2-9 展 示 一 个 作为 样 例 的 SCTP 关 联 所 发 生 的 实际 分 组 交换 情况 ， 包 括 关联 建立 、 数 据 传 
送 和 关联 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历经 的 SCTP 状 态 。 


客户 服务 器 
socket socket,bind,listen 
connect ( 阻塞 ) ( 被 动 打开 ) 
PEE Vue — — INIT (72) accept ([H3& ) 
CLOSED 


TaINIT ACK (Tz,K,cookie C) 


COOKIE-ECHOED 


Tz:COOKIE ECHO c, DATA 


Cr. accept 返回 
返回 | TxCOOKIE ACK, SACK, DATA — ESTABLISHED 
connect " 
ESTABLISHED TeSACK, DATA 


close 


(主动 关闭 ) “SHUTDOWN ( 被动 关闭 ) 
SHUTDOWN-SENT sisi 
ACK close 
T:SHUTDOWN SHUTDOWN-ACK-SENT 


CLOSED TzSHUTDOWN COMPLETE 





CLOSED 
图 2-9 SCTP 关 联 中 的 分 组 交换 


本 例 中 ,客户 在 COOKIE ECHO 块 所 在 分 组 中 撒 带 了 它 的 第 一 个 DATA 块 ， 服务器 则 在 作为 
应 答 的 COOKIE ACK 块 所 在 分 组 中 撒 带 了 数据 。 一 般 而 言 ， 当 网 络 应 用 采用 一 到 多 接口 式样 时 
(我 们 将 在 9.2 节 中 讨论 一 到 一 和 一 到 多 这 两 种 接口 式样 )，COOKIE ECHOI HA ti —TRE 
DATA 块 。 

SCTP 分 组 中 信息 的 单位 称 为 块 (chunk)。 块 是 自 描述 的 ， 包 含 一 个 块 类 型 、 若 于 个 块 标记 
和 一 个 块 长 度 。 这 样 做 方便 了 多 个 块 的 绑 缚 ， 只 要 把 它们 简单 地 组 合 到 一 个 SCTP 外 出 消息 中 
([Stewart and Xie 2001] 的 第 5 章 给 出 了 块 捆绑 和 常规 数据 传输 过 程 的 细节 )。 


2.85 SCTP 选项 


SCTP 使 用 参数 和 块 方便 增设 可 选 特性 。 新 的 特性 通过 添加 这 两 个 条 目 之 一 加 以 定义 , 并 人 允 
许 通常 的 SCTP 处 理 规 则 汇报 未 知 的 参数 和 未 知 的 块 。 参数 类 型 字段 和 块 类 型 字段 的 高 两 位 指明 
SCTP 接 收 端 该 如 何 处 置 未 知 的 参数 或 未 知 的 块 〈([ Stewart and Xie 2001] 的 3.1 节 给 出 了 更 多 的 
细节 )。 

当前 如 下 两 个 对 SCTP 的 扩展 正在 开发 中 。 

(1) 动态 地 址 扩展 ， 人 允许 协作 的 SCTP 端 点 从 已 有 的 某 个 关联 中 动态 增删 IP 地 址 。 

(2) 不 完全 可 靠 性 扩展 ， 允 许 协作 的 SCTP 端 点 在 应 用 进程 的 指导 下 限制 数据 的 重 传 。 当 一 
个 消息 变 得 过 于 陈旧 而 无 须发 送 时 (按照 应 用 进程 的 指导 ), 该 消息 将 被 跳 过 而 不 再 发 送 到 对 端 。 
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这 意味 着 不 是 所 有 数据 都 确保 到 达 关联 的 男 一 端 。 


任何 时 候 ， 多 个 进程 可 能 同时 使 用 TCP、UDP 和 SCTP 这 3 种 传输 层 协议 中 的 任何 一 种 。 这 3 
种 协议 都 使 用 16 位 整数 的 端口 号 Cport number) 来 区 分 这 些 进程 。 

当 一 个 客户 想 要 跟 一 个 服务 器 联系 时 , 它 必须 标识 想 要 与 之 通信 的 这 个 服务 器 。 TCP, UDP 
和 SCTP 定 义 了 一 组 众所周知 的 端口 (well-known port)， 用 于 标识 众所周知 的 服务 。 举 例 来 说 ， 
支持 FTP 的 任何 TCP/IP 实 现 都 把 21 这 个 众所周知 的 端口 分 配给 FTP 服 务 器 。 分 配给 简化 文件 传送 
+hiX (Trivial File Trqnsfer Protocol, TFTP) 的 是 UDP 端口 号 69。 

另 一 方面 ， 客 户 通常 使 用 短期 存活 的 临时 端口 (ephemeral port)。 这 些 端口 号 通常 由 传输 
层 协议 自动 赋予 客户 。 客 户 通常 不 关心 其 临时 端口 的 具体 值 ， 而 只 需 确 信 该 端口 在 所 在 主机 中 
是 唯一 的 就 行 。 传 输 协 议 的 代码 确保 这 种 唯一 性 。 

IANA (the Internet Assigned Numbers Authority， 因 特 网 已 分 配 数值 权威 机 构 ) 维护 着 一 个 
端口 号 分 配 状况 的 清单 。 该 清单 一 度 作 为 RFC 多 次 发 布 ，RFC 1700 [Reynolds and Postel 1994] 
是 这 个 系列 的 最 后 一 个 。RFC 3232 [Reynolds 2002 ] 给 出 了 替代 RFC 1700 的 在 线 数据 库 的 位 置 : 
http://www.iana.org/。 端 口号 被 划分 成 以 下 3 段 。 

(1) 众所周知 的 端口 为 0 一 1023。 这 些 端口 由 LANA 分 配 和 控制 。 可 能 的 话 ， 相同 端 口号 就 分 
配给 TCP、UDP 和 SCTP 的 同一 给 定 服务 。 例 如 ， 不 论 TCP 还 是 UDP 端口 号 80 都 被 赋予 Web 服 务 
器 ， 尽 管 它 目前 的 所 有 实现 都 单纯 使 用 TCP。 


端口 号 80 分 配 时 SCTP 尚 不 存在 。 新 的 端口 分 配 将 针对 这 3 种 协议 执行 ，RFC 2960 则 声明 
所 有 现 有 的 TCP 端 口号 对 于 使 用 SCTP 的 同一 服务 同样 有 效 。 


(2) 已 登记 的 端口 Cregistered port) 为 1024 一 49151。 这 些 端口 不 受 LANA 控 制 ,， 不 过 由 IANA 
登记 并 提供 它们 的 使 用 情况 清单 ,以 方便 整个 群体 。 可 能 的 话 , 相同 端口 号 也 分 配给 TCP 和 UDP 
的 同一 给 定 服务 。 例 如 ，6000 一 6063 分 配给 这 两 种 协议 的 X Window 服 务 器 ， 尽 管 它 的 所 有 实现 
当前 单纯 使 用 TCP。49151 这 个 上 限 的 引入 是 为 了 给 临时 端口 留 出 范围 ， 而 RFC 1700 [ Reynolds 
and Postel 1994] 所 列 的 上 限 为 65535。 

(3) 49152 一 65535 是 动态 的 (dynamic) 或 私 用 的 〈private) 端口 。IANA 不 管 这 些 端口 。 它 
们 就 是 我 们 所 称 的 临时 端口 。(49152 这 个 魔 数 是 65$36 的 四 分 之 三 。) 

图 2-10 展 示 了 端口 号 的 划分 情况 和 常见 的 分 配 情况 。 

我 们 要 注意 图 2-10 中 以 下 几 点 。 

e Unix 系统 有 保留 端口 〈reserved port) 的 概念 ， 指 的 是 小 于 1024 的 任何 端口 。 这 些 端口 

只 能 赋予 特权 用 户 进程 的 套 接 字 。 所 有 IANA 众 所 周知 的 端口 都 是 保留 端口 ， 分 配 使 用 
这 些 端 口 的 服务 器 (例如 FTP 服 务 器 必须 以 超级 用 户 特权 启动 。 

e 由 于 历史 原因 ， 源 自 Berkeley 的 实现 〈 从 4.3BSD 开 始 ) 曾 在 1024 一 5000 范 围 内 分 配 临时 
端口 。 这 在 20 世 纪 80 年 代 初 期 是 可 行 的 , 但 是 如 今 很 容易 就 找到 一 个 在 任何 给 定时 间 内 
同时 支持 多 于 3977 个 连接 的 主机 。 于 是 许多 较 新 的 系统 从 另外 的 范围 分 配 临 时 端口 以 提 
供 更 多 的 临时 端口 ， 它 们 或 者 使 用 由 IANA 定 义 的 临时 端口 范围 ， 或 者 使 用 一 个 更 大 的 
其 他 范围 (如 图 2-10 所 示 的 Solaris)。 
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IANA IANA 动态 
| 众所周知 端 U IANA 注 册 的 端口 或 私 用 端口 
1 1023 1024 49151 49152 65535 





BSD 保 留 端 口 BSD 临 时 端口 BSD 服 务 器 ( 非特 权 ) 
CUM e Jt —— Mj 


1023 1024 5000 5001 65535 


rresvport Solaris 临 时 端口 





513 1023 32768 65535 


图 2-10 ”端口 号 的 分 配 


由 于 这 个 原因 ， 许 多 较 早 的 系统 实现 的 临时 端口 范围 的 上 限 为 5000。5 000 这 个 上 限 后 来 
发 现 是 一 个 排版 错误 [ Borman 1997a ] ， 本 应 该 是 50 000. 


有 少数 客户 (而 不 是 服务 器 ) 需要 一 个 保留 端口 用 于 客户 /服务 器 的 认证 : rlogin 和 rsh 
客户 就 是 常见 的 例子 。 这 些 客户 调用 库 函 数 rresvport 创 建 一 个 TCP 套 接 字 ， 并 赋予 
它 一 个 在 513 一 1023 范 围 内 未 使 用 的 端口 。 该 函数 通常 先 党 试 绑 定 端口 1023， 若 失败 则 
尝试 1022， 依 次 类 推 ， 直 到 在 端口 513 上 亦 或 成 功 ， 亦 或 失败 。 


注意 : BSD 的 保留 端口 和 rresvport 函 数 都 跟 IANA 众 所 周知 端口 的 后 半 部 分 重 登 .这 是 
因为 IANA 众所周知 端口 早先 的 上 限 为 2355。1992 年 的 RFC 1340 (早先 的 一 个 “Assigned 
Numbers” RFC ) 开始 在 256 ~ 1023 之 间 分 配 众所周知 的 端口 。1990 年 的 RFC 1060 (更 早先 的 
一 个 “Assigned Numbers”RFC ) 称 256 ~ 1023 之 间 的 端口 为 Unix 标 准 服务 (Unix Standard 
Services ) . 20 世 纪 80 年 代 有 不 少 源 自 Berkeley 的 服务 器 在 512 以 后 挑选 它们 的 众所周知 的 端口 
( 留 下 256 ~511 这 个 空 档 ) 。rresvport 函 数 选 择 从 1023 开 始 往 下 寻找 ， 直 至 513。 


套 接 字 对 


-个 TCP 连 接 的 套 接 字 对 (socket pair) 是 一 个 定义 该 连接 的 两 个 端点 的 四 元 组 : 本 地 IP 地 

址 、 本 地 TCP 端 口号 、 外 地 IP 地 址 、 外 地 TCP 端 口号 。 套 接 字 对 唯一 标识 一 个 网 络 上 的 每 个 TCP 
连接 。 就 SCTP 而 言 ， 一 个 关联 由 一 组 本 地 IP 地 址 、 一 个 本 地 端口 、 一 组 外 地 IP 地 址 、 一 个 外 地 
端口 标识 。 在 两 个 端点 均 非 多 宿 这 一 最 简单 的 情形 下 , SCTP 与 TCP 所 用 的 四 元 组 套 接 字 对 一 致 。 
然而 在 某 个 关联 的 任何 一 个 端点 为 多 宿 的 情形 下 ， 同 一 个 关联 可 能 需要 多 个 四 元 组 标识 (这 些 
四 元 组 的 人 P 地 址 各 不 相同 ， 但 端口 号 是 一 样 的 )。 

标识 每 个 端点 的 两 个 值 (IP 地 址 和 端口 号 ) 通常 称 为 一 个 套 接 字 。 

我 们 可 以 把 套 接 字 对 的 概念 扩展 到 UDP, 即使 UDP 是 无 连接 的 。 当 讲解 套 接 字 函数 ind, 
connect、getpeername 等 ) 时 ， 我 们 将 指明 它们 在 指定 套 接 字 对 中 的 哪些 值 。 举 例 来 说 ，bind 
函数 要 求 应 用 程序 给 TCP、UDP 或 SCTP 套 接 字 指定 本 地 IP 地 址 和 本 地 端口 号 。 


2.10 TCP 端口 号 与 并 发 服务 器 
并 发 服务 器 中 主 服务 器 循环 通过 派生 一 个 子 进程 来 处 理 每 个 新 的 连接 。 如 果 一 个 子 进程 继 
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续 使 用 服务 器 众所周知 的 端口 来 服务 一 个 长 时 间 的 请 求 ， 那 将 发 生 什 么 ? 让 我 们 来 看 一 个 典型 
的 序列 。 首 先 ， 在 主机 freebsd 上 启动 服务 器 ,该 主机 是 多 宿 的 ， 其 人 P 地 址 为 12.106.32.254 和 
192.168.42.1。 服 务 器 在 它 的 众所周知 的 端口 (本 例 为 21) 上 执行 被 动 打开 ， 从 而 开始 等 待 客户 
的 请 求 ， 如 图 2-11 所 示 。 


12.106.32.254 
192.168.42.1 


图 2-11 TCP 服 务 器 在 端口 21 上 执行 被 动 打 开 


我 们 使 用 记号 {*:21, *:*} 指 出 服务 器 的 套 接 字 对 。 服 务 器 在 任意 本 地 接口 (第 一 个 星 号 ) 
的 端口 21 上 等 待 连接 请 求 。 外 地 IP 地 址 和 外 地 端口 都 没有 指定 ， 我 们 用 “* .*” 来 表示 。 我 们 称 
它 为 监听 套 接 字 (listening socket). 


我 们 用 分 号 来 分 割 IP 地 址 和 端口 号 ， 因 为 这 是 HTTP 的 用 法 ， 其 他 地 方 也 常见 。netstat 
程序 使 用 点 号 来 分 割 IP 地 址 和 端口 号 ， 不 过 如 此 表示 有 时 候 会 让 人 混 消 ， 因 为 点 号 既 用 于 域 
名 (如 freebsd.unpbook.com.21 )， 也 用 于 IPv4 的 点 分 十 进 制 数 记 法 (如 12.106.32. 
254.21). 


这 里 指定 本 地 IP 地 址 的 星 号 称 为 通 配 (wildcard) 符 。 如 果 运 行 服务 器 的 主机 是 多 宿 的 〈 如 
本 例 ), 服务 器 可 以 指定 它 只 接受 到 达 某 个 特定 本 地 接口 的 外 来 连接 。 这 里 要 么 选 一 个 接口 要 么 
选任 意 接口 。 服 务 器 不 能 指定 一 个 包含 多 个 地 址 的 清单 。 通 配 的 本 地 地 址 表示 “任意 ”这 个 选 
择 。 在 图 1-9 中 ， 通 配 地 址 通过 在 调用 bind 之 前 把 套 接 字 地 址 结构 中 的 下 地 址 字段 设置 成 
INADDR_ANY 来 指定 。 

稍 后 在 卫 地 址 为 206.168.112.219 的 主机 上 启动 第 一 个 客户 ， 它 对 服务 器 的 下 地 址 之 一 
12.106.32.254 执 行 主动 打开 。 我 们 假设 本 例 中 客户 主机 的 TCP 为 此 选择 的 临时 端口 为 1300, 如 图 
2-12 所 示 。 图 中 在 该 客户 的 下 方 标 出 了 它 的 套 接 字 对 。 


12.106.32.254 
206.168.112.219 192.168.42.1 


到 12.106.32.254 端 口 
21 的 连接 请 求 
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图 2-12 ”客户 对 服务 器 的 连接 请 求 


当 服 务 器 接收 并 接受 这 个 客户 的 连接 时 ， 它 fork 一 个 自身 的 副本 ， 让 子 进 程 来 处 理 该 客户 
的 请 求 ， 如 图 2-13 所 示 。( 我 们 将 在 4.7 节 中 讲解 fork 函 数 。) 

至 此 ， 我 们 必须 在 服务 器 主机 上 区 分 监听 套 接 字 和 已 连接 套 接 字 (connected socket)。 注 意 
已 连接 套 接 字 使 用 与 监听 套 接 字 相 同 的 本 地 端口 (21)。 还 要 注意 在 多 宿 服 务 器 主机 上 ， 连 接 一 
且 建 立 ， 已 连接 套 接 字 的 本 地 地 址 〈12.106.32.254) 随即 填 入 。 
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图 2-13 ”并 发 服务 器 让 子 进程 处 理 客户 


下 一 步 我 们 假设 在 客户 主机 上 另 有 一 个 客户 请 求 连接 到 同一 个 服务 器 。 客 户主 机 的 TCP 为 
这 个 新 客户 的 套 接 字 分 配 一 个 未 使 用 的 临时 端口 ， 辟 如 说 1501， 如 图 2-14 所 示 。 服 务 器 上 这 两 
个 连接 是 有 区 别 的 : 第 一 个 连接 的 套 接 字 对 和 第 二 个 连接 的 套 接 字 对 不 一 样 ， 因 为 客户 的 TCP 
给 第 二 个 连接 选择 了 一 个 未 使 用 的 端口 (15015. 
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〈 子 进程 2》 
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图 2-14 ”第 二 个 客户 与 同一 个 服务 器 的 连接 


通过 本 例 应 注意 ，TCP 无 法 仅仅 通过 查看 目的 端口 号 来 分 离 外 来 的 分 节 到 不 同 的 端点 。 它 
必须 查看 套 接 字 对 的 所 有 4 个 元 素 才能 确定 由 哪个 端点 接收 某 个 到 达 的 分 节 。 图 2-14 中 对 于 同一 
个 本 地 端口 (21) 存在 3 个 套 接 字 。 如 果 一 个 分 节 来 自 206.168.112.219 端 口 1500， 目 的 地 为 
12.106.32.254 端 口 21, 它 就 被 递送 给 第 一 个 子 进程 .如果 一 个 分 节 来 自 206.168.112.219 端 口 1501， 
目的 地 为 12.106.32.254 端 口 21, 它 就 被 递送 给 第 二 个 子 进程 。 所 有 目的 端口 为 21 的 其 他 TCP 分 节 
都 被 递送 给 拥有 监听 套 接 字 的 最 初 那个 服务 器 〈 父 进程 )。 
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下 面 我 们 将 介绍 一 些 影 响 IP 数 据 报 大 小 的 限制 。 我 们 首先 介绍 这 些 限制 ， 然 后 就 它们 如 何 
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影响 应 用 进程 能 够 传送 的 数据 进行 综合 分 析 。 


IPv4 数 据 报 的 最 大 大 小 是 65 S35 字 节 , 包括 IPv4 首 部 。 这 是 因为 如 图 A-1 所 示 其 总 长 度 字 
段 占据 16 位 。 . 

IPv6 数 据 报 的 最 大 大 小 是 65 575 字 节 , 包括 40 字 节 的 IPv6 首 部 。 这 是 因为 如 图 A-2 所 示 其 
净 荷 长 度 字段 占据 16 位 。 注 意 ，IPv6 的 净 荷 长 度 字 段 不 包括 IPv6 首 部 ， 而 IPv4 的 总 长 度 
字段 包括 IPv4 首 部 。 

IPv6 有 一 个 特大 净 荷 (jumbo payload) 选项 ， 它 把 净 荷 长 度 字 段 扩 展 到 32 位 ， 不 过 这 个 选 
项 需要 MTU (maximum transmission unit， 最 大 传输 单元 ) 超过 65 535 的 数据 链 路 提供 支持 。 
(这 是 为 主机 到 主机 的 内 部 连接 而 设计 的 ， 璧 如 HIPPI， 它 们 通常 没有 内 在 的 MTU。) 
许多 网 络 有 一 个 可 由 硬件 规定 的 MTU。 举 例 来 说 ， 以 太 网 的 MTU 是 1500 字 节 。 另 有 一 
些 链 路 (例如 使 用 PPP 协 议 的 点 到 点 链 路 ) 其 MTU 可 以 人 为 配置 。 较 老 的 SLIP 链 路 通常 
使 用 1006 字 节 或 296 字 节 的 MTU。 

IPv4 要 求 的 最 小 链 路 MTU 是 68 字 节 。 这 人 允许 最 大 的 IPv4 首 部 (包括 20 字 节 的 固定 长 度 部 
分 和 最 多 40 字 节 的 选项 部 分 ) 拼接 最 小 的 片段 (IPv4 首 部 中 片段 偏 移 字 段 以 8 个 字 节 为 
单位 )。IPv6 要 求 的 最 小 链 路 MTU 为 1280 字 节 。IPv6 可 以 运行 在 MTU 小 于 此 最 小 值 的 链 
路 上 ， 不 过 需要 特定 于 链 路 的 分 片 和 重组 功能 ， 以 使 得 这 些 链 路 看 起 来 具有 至 少 为 1280 
字 节 的 MTU (RFC 2460 [Deering and Hinden 1998])。 

在 两 个 主机 之 间 的 路 径 中 最 小 的 MTU 称 为 路 径 MTU (path MTU)。1500 字 节 的 以 太 网 
MTU 是 当今 常见 的 路 径 MTU。 两 个 主机 之 间 相 反 的 两 个 方向 上 路 径 MTU 可 以 不 一 致 ， 
因为 在 因特网 中 路 由 选择 往往 是 不 对 称 的 [Paxson 1196]， 也 就 是 说 从 A 到 B 的 路 径 与 从 
B 到 A 的 路 径 可 以 不 相同 。 

当 一 个 IP 数 据 报 将 从 某 个 接口 送出 时 ， 如 果 它 的 大 小 超过 相应 链 路 的 MTU，IPv4 和 IPv6 
都 将 执行 分 片 〈fragmentation )。 这 些 片 段 在 到 达 最 终 目 的 地 之 前 通常 不 会 被 重组 
Creassembling)。IPv4 主 机 对 其 产生 的 数据 报 执行 分 片 , IPv4 路 由 器 则 对 其 转发 的 数据 报 
执行 分 片 。 然 而 ITPv6 只 有 主机 对 其 产生 的 数据 报 执行 分 片 ，IPv6 路 由 器 不 对 其 转发 的 数 
据 报 执行 分 片 。 


我 们 必须 小 心 这 些 术语 的 使 用 。 一 个 标记 为 IPv6 路 由 器 的 设备 可 能 执行 分 片 ， 不 过 只 是 
对 于 那些 由 它 产 生 的 数据 报 ， 而 绝 不 是 对 于 那些 由 它 转发 的 数据 报 。 当 该 设备 产生 IPv6 数 据 
报时 ， 它 实际 上 作为 主机 运作 。 举 例 来 说 ， 大 多 数 路 由 器 支持 Telnet 协 议 ， 管 理 员 就 用 它 来 配置 
路 由 器 。 由 路 由 器 的 Telnet 服 务 器 产生 的 JP 数据 报 是 由 路 由 器 产生 的 ， 而 不 是 由 路 由 器 转发 的 。 

你 可 能 注意 到 ，IPv4 首 部 (图 A-1 ) 有 用 于 处 理 IPv4 分 片 的 字段 ，IPv6 首 部 (图 A-2) 却 
没有 类 似 的 字段 。 既 然 分 片 是 例外 情况 而 不 是 通常 情况 ，IPv6 于 是 引入 一 个 可 选 首部 以 提供 
分 片 信息 。 

某 些 通常 用 作 路 由 器 的 防火 墙 可 能 会 重组 分 片 了 的 分 组 , 以 便 查 看 整个 IP 数 据 报 的 内 容 ， 
这 样 做 使 得 不 必 在 防火 墙 上 引入 额外 的 复杂 性 就 能 够 防止 某 些 攻击 。 它 还 要 求 防火 墙 设备 是 
进出 网 络 的 唯一 路 径 上 的 设备 ， 从 而 减少 了 宛 余 的 机 会 。 


IPv4 首 部 (图 A-1) 的 “不 分 片 (dontfragment)” 位 〔〈 即 DEF 位 ) 若 被 设置 ， 那 么 不 管 是 
发 送 这 些 数据 报 的 主机 还 是 转发 它们 的 路 由 器 ， 都 不 允许 对 它们 分 片 。 当 路 由 器 接收 到 
一 个 超过 其 外 出 链 路 MTU 大 小 且 设 置 了 DEF 位 的 IPv4 数 据 报 时 ， 它 将 产生 一 个 ICMPv4 
“destination unreachable, fragmentation needed but DF bit set” (目的 地 不 可 达 ， 需 分 片 但 
DF 位 已 设置 ) 出 错 消息 (图 A-15)。 


211 缓冲 区 大 小 及 限制 47 





既然 IPv6 路 由 器 不 执行 分 片 ， 每 个 IPv6 数 据 报 于 是 隐 含 一 个 DF 位 。 当 IPv6 路 由 器 接收 到 
一 个 超过 其 外 出 链 路 MTU 大 小 的 IPv6 数 据 报 时 ， 它 将 产生 一 个 ICMPv6“packet too big” 
(分 组 太 大 ) 出 错 消 息 〈 图 A-16)。 

IPv4 的 DF 位 和 IPv6 的 隐 含 DF 位 可 用 于 路 径 MTU 发 现 〈IPv4 的 情形 见 RFC 1191 [Mogul 
and Deering 1990]，IPv6 的 情形 见 RFC 1981 [McCann, Deering, and Mogul 1996])。 举 例 
来 说 ， 如 果 基 于 IPv4 的 TCP 使 用 该 技术 ， 那 么 它 将 在 所 发 送 的 所 有 数据 报 中 设置 DF 位 。 
如 果 某 个 中 间 路 由 器 返回 一 个 ICMP “destination unreachable, fragmentation needed but DF 
bit set” 错误 ，TCP 就 减 小 每 个 数据 报 的 数据 量 并 重 传 。 路 径 MTU 发 现 对 于 IPv4 是 可 选 的 ， 
然而 IPv6 的 所 有 实现 要 么 必须 支持 它 ， 要 么 必须 总 是 使 用 最 小 的 MTU 发 送 IPv6 数 据 报 。 


路 径 MTU 发 现在 如 今 的 因特网 上 是 有 问题 的 ， 许 多 防火 墙 丢弃 所 有 ICMP 消 息 ， 包 括 用 
于 路 径 MTU 发 现 的 上 述 消息 。 这 意味 着 TCP 永 远 得 不 到 要 求 它 降低 所 发 送 数据 量 的 信号 。 编 
写本 书 时 ，IETF 已 经 开始 尝试 定义 不 依赖 于 ICMP 出 错 消息 的 另 一 种 路 径 MTU 发 现 方法 。 


e IPv4 和 IPv6 都 定义 了 最 小 重组 缓冲 区 大 小 (minimum reassembly buffer size)， 它 是 IPv4 
或 IPv6 的 任何 实现 都 必须 保证 支持 的 最 小 数据 报 大 小 。 其 值 对 于 IPv4 为 576 字 节 ， 对 于 
IPv6 为 1500 字 节 。 例 如 ， 就 IPv4 而 言 ， 我 们 不 能 判定 某 个 给 定 目的 地 能 否 接 受 577 字 节 
的 数据 报 。 为 此 有 许多 使 用 UDP 的 IPv4 网 络 应 用 (如 DNS、RIP、TFTP、BOOTP、SNMP) 
避免 产生 大 于 这 个 大 小 的 数据 报 。 

e TCP 有 一 个 MSS (maximum segment size, 最 大 分 节 大 小 )， 用 于 向 对 端 TCP 通 告 对 端 在 每 个 
分 节 中 能 发 送 的 最 大 TCP 数 据 量 。 在 图 2-5 中 我 们 看 到 过 SYN 分 节 上 的 MSS 选 项 。MSS 的 
目的 是 告诉 对 端 其 重组 缓冲 区 大 小 的 实际 值 ， 从 而 试图 避免 分 片 。MSS 经 常设 置 成 MTU 
减 去 耻 和 TCP 首 部 的 固定 长 度 。 在 以 太 网 中 使 用 IPv4 的 MSS 值 为 1460， 使 用 IPv6 的 MSS 
值 为 1440( 两 者 的 TCP 首 部 都 是 20 个 字 节 , 但 IPv4 首 部 是 20 字 节 ，IPv6 首 部 却 是 40 字 节 )。 
在 TCP 的 MSS 选 项 中 ，MSS 值 是 一 个 16 位 的 字段 ， 限 定 其 最 大 值 为 65 535。 这 对 于 IPv4 
是 适合 的 ， 因 为 IPv4 数 据 报 中 的 最 大 TCP 数 据 量 为 65 495 (65 535 减 去 IPv4 首 部 的 20 字 节 
和 TCP 首 部 的 20 字 节 )。 然 而 对 于 有 具有 特大 净 荷 选项 的 IPv6， 却 需要 使 用 另外 一 种 技巧 
(RFC 2675 [Borman, Deering, and Hinden 1999 ])。 首 先 ， 没 有 特大 净 荷 选项 的 IPv6 数 据 
报 中 的 最 大 TCP 数 据 量 为 65 515 (65 535 减 去 TCP 首 部 的 20 字 节 )。65 535 这 个 MSS 值 于 
是 被 视 为 表示 “无 限 ” 的 一 个 特殊 值 。 该 值 只 在 用 到 特大 净 荷 选项 时 才 使 用 ， 不 过 这 种 
情况 却 要 求实 际 的 MTU 超 过 65 535。 其 次 ， 如 果 TCP 使 用 特大 净 荷 选项 ， 并 且 接 收 到 的 
对 端 通告 的 MSS 为 65 53$， 那 么 它 所 发 送 数据 报 的 大 小 限制 就 是 接口 MTU。 如 果 这 个 值 
太 大 (也 就 是 说 所 在 路 径 中 某 个 链 路 的 MTU 比 较 小 )， 那 么 路 径 MTU 发 现 功能 将 确定 这 
个 较 小 值 。 

e SCTP 基 于 到 对 端 所 有 地 址 发 现 的 最 小 路 径 MTU 保 持 一 个 分 片 点 。 这 个 最 小 MTU 大 小 用 于 
把 较 大 的 用 户 消 息 分 割 成 较 小 的 能 够 以 单个 卫 数 据 报 发 送 的 若干 片段 。SCTP_MAXSEG 
套 接 字 选 项 可 以 影响 该 值 ， 使 得 用 户 能 够 请 求 一 个 更 小 的 分 片 点 。 


2.11.1 TCP 输 出 
图 2-15 展 示 了 某 个 应 用 进程 写 数据 到 一 个 TCP 套 接 字 中 时 发 生 的 步骤 。 


每 一 个 TCP 套 接 字 有 一 个 发 送 缓冲 区 ， 我 们 可 以 使 用 so_sNDBUF 套 接 字 选 项 来 更 改 该 缓冲 
区 的 大 小 〈 见 7.5 节 )。 当 某 个 应 用 进程 调用 write 时 ， 内 核 从 该 应 用 进程 的 缓冲 区 中 复制 所 有 数 
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据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 果 该 套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 或 
是 应 用 进程 的 缓冲 区 大 于 套 接 字 的 发 送 缓冲 区 , 或 是 套 接 字 的 发 送 缓冲 区 中 已 有 其 他 数据 )， 该 
应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 是 阻塞 的 ， 它 是 通常 的 默认 设置 。( 我 们 将 在 第 16 
章 中 阐述 非 阻 塞 的 套 接 字 。) 内 核 将 不 从 write 系统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 有 数 
据 都 复制 到 套 接 字 发 送 缓冲 区 .。 因此 ,从 写 一 个 TCP 套 接 字 的 write 调用 成 功 返 回 仅仅 表示 我 们 
可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 , 并 不 表明 对 端的 TCP 或 应 用 进程 已 接收 到 数据 。( 我 们 将 
在 7.5 节 随 so_LINGER 套 接 字 选项 详细 讨论 这 一 点 。) 


应 用 进程 应 用 进程 缓冲 区 《任意 大 小 ) 


TCP 套 接 字 发 送 缓冲 区 (SO_SNDBUF ) 


| MSS 大 小 的 TCP 分 节 


通常 MSS 生 MTU 一 40 (IPv4) 或 MTU 一 60 (IPv6) 
输出 队列 


图 2-15 ”应 用 进程 写 TCP 套 接 字 时 涉及 的 步骤 和 缓冲 区 


这 一 端的 TCP 提 取 套 接 字 发 送 缓冲 区 中 的 数据 并 把 它 发 送 给 对 端 TCP, 其 过 程 基于 TCP 数 据 
传送 的 所 有 规则 “TCPv1 的 第 19 章 和 第 20 章 )。 对 端 TCP 必 须 确认 收 到 的 数据 ， 伴 随 来 自 对 端的 
ACK 的 不 断 到 达 ， 本 端 TCP 至 此 才能 从 套 接 字 发 送 缓冲 区 中 丢弃 已 确认 的 数据 。TCP 必 须 为 已 
发 送 的 数据 保留 一 个 副本 ， 直 到 它 被 对 端 确 认为 止 。 

本 端 TCP 以 MSS 大 小 的 或 更 小 的 块 把 数据 传递 给 全 ， 同 时 给 每 个 数据 块 安 上 一 个 TCP 首 部 
以 构成 TCP 分 节 , 其 中 MSS 或 是 由 对 端 通告 的 值 , 或 是 536 ( 若 对 端 未 发 送 一 个 MSS 选 项 )。(536 
是 IPv4 最 小 重组 缓冲 区 字 节 数 576 减 去 IPv4 首 部 字 节 数 20 和 TCP 首 部 字 节 数 20 的 结果 。)IP 给 每 个 
TCP 分 节 安 上 一 个 IP 首 部 以 构成 IP 数 据 报 ， 并 按照 其 目的 IP 地 址 查找 路 由 表 项 以 确定 外 出 接口 ， 
然后 把 数据 报 传递 给 相应 的 数据 链 路 。IP 可 能 在 把 数据 报 传递 给 数据 链 路 之 前 将 其 分 片 ， 不 过 
我 们 已 经 谈 到 MSS 选 项 的 目的 之 一 就 是 试图 避免 分 片 ， 较 新 的 实现 还 使 用 了 路 径 MTU 发 现 功 
能 。 每 个 数据 链 路 都 有 一 个 输出 队列 ， 如 果 该 队列 已 满 ， 那 么 新 到 的 分 组 将 被 丢弃 ， 并 沿 协议 
栈 向 上 返回 一 个 错误 : 从 数据 链 路 到 IP， 再 从 IP 到 TCP。TCP 将 注意 到 这 个 错误 ， 并 在 以 后 某 个 
时 刻 重 传 相 应 的 分 节 。 应 用 进程 并 不 知道 这 种 暂时 的 情况 。 


2.11.2 UDP 输出 


图 2-16 展 示 了 某 个 应 用 进程 写 数据 到 一 个 UDP 套 接 字 中 时 发 生 的 步骤 。 
这 一 次 我 们 以 虚线 框 展示 套 接 字 发 送 缓冲 区 ， 因 为 它 实际 上 并 不 存在 。 任 何 UDP 套 接 字 都 
有 发 送 缓冲 区 大 小 (我 们 可 以 使 用 so_sNDBUF 套 接 字 选 项 更 改 它 ， 见 7.5 节 )， 不 过 它 仅仅 是 可 








MTU 大 小 的 人 Pv4 或 Pv6 分 组 
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写 到 该 套 接 字 的 UDP 数据 报 的 大 小 上 限 。 如 果 一 个 应 用 进程 写 一 个 大 于 套 接 字 发 送 缓冲 区 大 小 
的 数据 报 ， 内 核 将 返回 该 进程 一 个 EMsGsTzE 错 误 。 既 然 UDP 是 不 可 靠 的 ， 它 不 必 保存 应 用 进程 
数据 的 一 个 副本 ， 因 此 无 需 一 个 真正 的 发 送 缓冲 区 。( 应 用 进程 的 数据 在 沿 协议 栈 向 下 传递 时 ， 
通常 被 复制 到 某 种 格式 的 一 个 内 核 缓冲 区 中 ， 然 而 当 该 数据 被 发 送 之 后 ， 这 个 副本 就 被 数据 链 
HEEFT.) 


应 用 进程 缓冲 区 
0 PREIS ae 
内 核 


| UDP 数据 报 


| MTU 大 小 的 IPv4 或 IPv6 分 组 


输出 队列 





图 2-16 ”应 用 进程 写 UDP 套 接 字 时 涉及 的 步骤 与 缓冲 区 


这 一 端的 UDP 简单 地 给 来 自用 户 的 数据 报 安 上 它 的 8 字 节 的 首部 以 构成 UDP 数据 报 , 然后 传 
递 给 IP。IPv4 或 I[Pv6 给 UDP 数 据 报 安 上 相应 的 中 首部 以 构成 IP 数 据 报 , 执行 路 由 操作 确定 外 出 接 
口 ， 然 后 或 者 直接 把 数据 报 加 入 数据 链 路 层 输 出 队列 (如 果 适 合 于 MTU)， 或 者 分 片 后 再 把 每 
个 片段 加 入 数据 链 路 层 的 输出 队列 。 如 果 某 个 UDP 应 用 进程 发 送 大 数据 报 〈 璧 如 说 2000 字 节 的 
数据 报 )， 那 么 它们 相 比 TCP 应 用 数据 更 有 可 能 被 分 片 ， 因 为 TCP 会 把 应 用 数据 划分 成 MSS 大 小 
的 块 ， 而 UDP 却 没有 对 等 的 手段 。 

从 写 一 个 UDP 套 接 字 的 write 调用 成 功 返回 表示 所 写 的 数据 报 或 其 所 有 片段 已 被 加 入 数据 
链 路 层 的 输出 队列 。 如 果 该 队列 没有 足够 的 空间 存放 该 数据 报 或 它 的 某 个 片段 ， 内 核 通常 会 返 
回 一 个 ENOBUFS 错 误 给 它 的 应 用 进程 。 


不 幸 的 是 ， 有 些 UDP 的 实现 不 返回 这 种 错误 ， 这 样 甚至 数据 报 未 经 发 送 就 被 丢弃 的 情况 
应 用 进程 也 不 知道 


2.11.3 SCTP 输出 


图 2-17 展 示 了 某 个 应 用 进程 写 数 据 到 一 个 SCTP 套 接 字 中 时 发 生 的 步骤 。 

既然 SCTP 是 与 TCP 类 似 的 可 靠 协 议 ， 它 的 套 接 字 也 有 一 个 发 送 缓冲 区 ， 而 且 跟 TCP 一 样 ， 
我 们 可 以 用 so_sNDBUF 套 接 字 选 项 来 更 改 这 个 缓冲 区 的 大 小 ( 见 7.5 节 )。 当 一 个 应 用 进程 调用 
write 时 ， 内 核 从 该 应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 果 该 套 
接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 (或 是 应 用 进程 的 缓冲 区 大 于 套 接 字 的 发 送 缓 
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冲 区 ， 或 是 套 接 字 的 发 送 缓冲 区 中 已 有 其 他 数据 )， 应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 
是 阻塞 的 , 它 是 通常 的 默认 设置 。( 我 们 将 在 第 16 章 中 冰 述 非 阻塞 的 套 接 字 。 ) 内 核 将 不 从 write 
系统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 有 数据 都 复制 到 套 接 字 发 送 缓冲 区 。 因 此 ， 从 写 一 
个 SCTP 套 接 字 的 write 调用 成 功 返 回 仅 仅 表示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 ， 并 不 
表明 对 端的 SCTP 或 应 用 进程 已 接收 到 数据 。 


应 用 进程 缓冲 区 | 


| 用 户 进程 





套 接 字 发 送 缓冲 区 (so_sNDBUF) 


| 


| MTU 大 小 的 IPv4 或 IPv6 分 组 





输出 队列 
数据 链 路 





图 2-17 ”应 用 进程 写 SCTP 套 接 字 时 涉及 的 步骤 和 缓冲 区 


这 一 端的 SCTP 提 取 套 接 字 发 送 缓冲 区 的 数据 并 把 它 发 送 给 对 端 SCTP， 其 过 程 基于 SCTP 数 
据 传 送 的 所 有 规则 (数据 传送 的 细节 见 [Stewart and Xie 2001] 的 第 5 章 )。 本 端 SCTP 必 须 等 待 
SACK， 在 累积 确认 点 超过 已 发 送 的 数据 后 ， 才 可 以 从 套 接 字 缓冲 区 中 删除 该 数据 。 


图 2-18 列 出 了 TCP/IP 多 数 实现 都 提供 的 若干 标准 服务 。 注 意 ， 表 中 所 有 服务 同时 使 用 TCP 
和 UDP 提 供 ， 并 且 这 两 个 协议 所 用 端口 号 也 相同 。 

这 些 服务 通常 由 Unix 主 机 的 inetd 守 护 进程 提供 〈 见 13.5 节 )。 它们 还 提供 使 用 标准 的 Telnet 
客户 程序 就 能 完成 的 简易 测试 机 制 。 举 例 来 说 ， 下 面 就 是 时 间 获 取 和 回 射 这 两 个 标准 服务 器 的 
测试 过 程 : 


aix $ telnet freebsd daytime 


OS we RL Ct OT OTE RECUR N BN dh ethane re 





Trying 12.106.32.254... Telnet 客 户 输出 

Connected to freebsd.unpbook.com. Telnet 客 户 输出 

Escape character is ' ^]' . Telnet 客 户 输出 

Mon Jul 28 11:56:22 2003 daytime 服 务 器 输出 

Connection closed by foreign host. TeInet 客 户 输出 (服务 器 关闭 连接 》 


aix $ telnet freebsd echo 
Trying 12.106.32.254... Telnet 客 户 输出 
Connected to freebsd.unpbook.com. Telnet 客 户 输出 
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Escape character is ' ^]' . Telnet 客 户 输出 
hello,world 我 们 键入 这 行 

hello,world 它 由 服务 器 回 射 回来 

^] 键入 Ctrltt] 以 与 Telnet 客 户 交谈 
telnet> quit 告诉 客户 我 们 已 测试 完毕 
Connection closed. 这 次 客户 自己 关闭 连接 


echo《〈 回 射 ) 服务 器 返回 客户 发 送 的 数据 

discard (丢弃 ) 服务 器 废弃 客户 发 送 的 数据 

daytime (MHAIR) 服务 器 返回 直观 可 读 的 日 期 和 时 间 
chargen〔 字 符 生成 》 TCP 服 务 器 发 送 连续 的 字符 流 ， 直 到 客 


户 终止 连接 。UDP 服 务 器 则 每 当 客户 发 送 
一 个 数据 报 就 返 送 一 个 包含 随机 数量 
(0-512) 字符 的 数据 报 

time《 流 逝 时 间 获 取 ) 服务 器 返回 一 个 32 位 二 进 制 数值 表示 
的 时 间 。 这 个 数值 表示 从 1900 年 1 月 1 日 子 
时 〈UTC 时 间 ) 以 来 所 流逝 的 秒 数 


图 2-18 大 多 数 实现 提供 的 标准 TCP/IP 服 务 ? 





在 这 两 个 例子 中 ， 我 们 键入 主机 名 和 服务 名 (daytime 和 echo)。 这 些 服务 名 由 /etc/ 
services 文 件 映射 到 图 2-18 所 示 的 端口 号 ， 详 见 11.5 节 。 

注意 ， 当 我 们 连接 到 aaytime 服 务 器 时 ， 服 务 器 执行 主动 关闭 ， 然 而 当 连 接 到 echo 服 务 器 
时 ， 客 户 执行 主动 关闭 。 回 顾 图 2-4， 我 们 知道 执行 主动 关闭 的 那 一 端 就 是 历经 TIME_WAIT 状 
态 的 那 一 端 。 

为 了 应 付 针 对 它们 的 拒绝 服务 攻击 和 其 他 资源 使 用 攻击 ， 在 如 今 的 系统 中 ， 这 些 简单 的 服 
务 通常 被 禁用 。 


CO AIR AE mood- Ld NLS TE RET TT EAR NT 9 ARP € Nl al ar NEO C EIR 


2.13 ”常见 因特网 应 用 的 协议 使 用 


图 2-19 总 结 了 各 种 常见 的 因特网 应 用 对 协议 的 使 用 情况 。 

前 两 个 因特网 应 用 ping 和 traceroute 是 使 用 ICMP 协 议 实 现 的 网 络 诊 断 应 用 。traceroute 
自行 构造 UDP 分 组 来 发 送 并 读 取 所 引发 的 ICMP 应 答 。 

紧 接着 是 3 个 流行 的 路 由 协议 ， 它 们 展示 了 路 由 协议 使 用 的 各 种 传输 协议 。OSPF 通 过 原始 
套 接 字 直 接 使 用 IP，RIP 使 用 UDP，BGP 使 用 TCP。 

接 下 来 5 个 是 基于 UDP 的 网 络 应 用 , 然后 是 7 个 TCP 网 络 应 用 和 4 个 同时 使 用 UDP 和 TCP 的 网 
络 应 用 ， 最 后 5 个 是 人 P 电 话 网 络 应 用 ， 它 们 或 者 独自 使 用 SCTP， 或 者 选用 UDP、TCP 或 SCTP。 





© 本 图 同时 给 出 了 这 些 标准 因特网 服务 的 英文 名 称 和 中 文 名 称 ， 其 中 英文 名 称 是 正式 名 称 ( /etc/services 文 件 
使 用 这 些 名 称 )。 之 所 以 这 么 区 分 是 因为 本 书 围绕 其 中 两 种 服务 《 回 射 和 时 间 获 取 ) 的 实现 展开 ， 为 区 分 本 书 中 
的 实现 与 各 个 Unix 系 统 的 内 部 实现 ， 我 们 用 中 文 名 称 称呼 前 者 ， 用 英文 名 称 称呼 后 者 〈 原 书 也 对 两 者 做 了 类 似 
区 分 )。 另 外 内 部 实现 的 服务 总 是 使 用 标准 端口 号 ， 本 书 实现 的 服务 则 可 根据 情况 选择 。 因 此 当 使 用 英文 名 称 服 
务 名 时 ， 必 定 与 其 标准 端口 号 对 应 。 一 一 译 者 注 
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C e [ [eve | voe | er [sere ] 


OSPF (路 由 协议 ) 
RIP〈 路 由 协议 ) 
BGP《〈 路 由 协议 ) 
BOOTP (引导 协议 ) 
DHCP (引导 协议 ) 

NTP CI fa] BR 

TFTP 《低级 FTP) 
SNMP (网 络 管理 ) 
SMTP 〈 电 子 邮件 ) 
Telnet (远程 登录 ) 

SSH (安全 的 远程 登录 ) 
FTP (文件 传送 ) 

HTTP (Web) 

NNTP (网 络 新 闻 ) 

LPR《〈 远 程 打印 ) 

DNS (3% AD 

NFS (网 络 文件 系统 ) 
Sun RPC (远程 过 程 调用 ) 
DCE RPC 〈 远 程 过 程 调用 ) 
IUA (IP 之 上 的 ISDN) 
M2UA/M3UA (SS7 电 话 信 令 ) 
H.248 (BEAM KES Hil) 
H.323 (IP 电 话 ) 

SIP (IP 电 话 》 








图 2-19 各 种 常见 因特网 应 用 的 协议 使 用 情况 


244 小 结 


UDP 是 一 个 简单 、 不 可 靠 、 无 连接 的 协议 ， 而 TCP 是 一 个 复杂 、 可 靠 、 面 向 连接 的 协议 。 
SCTP 组 合 了 这 两 个 协议 的 一 些 特 性 ， 并 提供 了 TCP 所 不 具备 的 额外 特性 。 尽 管 绝 大 多 数 因 特 网 
应 用 (Web、Telnet、FTP 和 电子 邮件 〉 使 用 TCP， 但 这 3 个 协议 对 传输 层 都 是 必要 的 。 在 22.4 节 
中 我 们 将 阐述 选用 UDP 替代 TCP 的 理由 。 在 23.12 节 中 我 们 将 阐述 选用 SCTP 替 代 TCP 的 理由 。 

TCP 使 用 三 路 握手 建立 连接 ， 使 用 四 分 组 交换 序列 终止 连接 。 当 一 个 TCP 连 接 被 建立 时 ， 
它 从 CLOSED 状 态 转换 到 ESTABLISHED 状 态 ， 当 该 连接 被 终止 时 ， 它 又 回 到 CLOSED 状 态 。 一 
个 TCP 连 接 可 处 于 11 种 状态 之 一 ， 其 状态 转换 图 给 出 了 从 一 种 状态 转换 到 另 一 种 状态 的 规则 。 
理解 状态 转换 图 是 使 用 netstat 命 令 诊 断 网 络 问题 的 基础 ， 也 是 理解 当 某 个 应 用 进程 调用 诸如 
connect, accept 和 close 等 函数 时 所 发 生 过 程 的 关键 。 

TCP 的 TIME_WAIT 状 态 一 直 是 -- 个 造成 网 络 编程 人 员 混 淆 的 来 源 。 存 在 这 一 状态 是 为 了 
实现 TCP 的 全 双 工 连接 终止 ( 即 处 理 最 终 那 个 ACK 丢 失 的 情形 )， 并 允许 老 的 重复 分 节 从 网 络 
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中 消逝 。 

SCTP 使 用 四 路 握手 建立 关联 ; 使 用 三 分 组 交换 序列 终止 关联 。 当 一 个 SCTP 关 联 被 建立 时 ， 
它 从 CLOSED 状 态 转 换 到 ESTABLISHED 状 态 ， 当 该 关联 被 终止 时 ， 它 又 回 到 CLOSED 状 态 。 一 
个 SCTP 关 联 可 处 于 8 种 状态 之 一 ， 其 状态 转换 图 给 出 从 一 种 状态 转换 到 另 一 种 状态 的 规则 。 
SCTP 不 像 TCP 那 样 需要 TIME_WAIT 状 态 ， 因 为 它 使 用 了 验证 标记 。 


习题 


2.1 我 们 已 经 提 到 IPv4 (IP 版 本 4) 和 IPv6 (版 本 6) 。IP 版 本 5 情况 如 何 ，IP 版 本 0、1、2 和 3 又 是 什么 ? 
(提示 : 查 IANA 的 “Intemet Protocol” 注 册 处 。 要 是 你 无 法 访问 JIANA 所 在 网 址 http://www.iana.org， 
那 就 查看 附录 中 的 解答 吧 。) 

2.2 ”你 从 哪里 可 以 找到 有 关 IP 版 本 5 的 信息 ? 

2.3 ”在 讲解 图 2-15 时 我 们 说 过 ， 如 果 没 收 到 来 自 对 端的 MSS 选 项 ， 本 端 TCP 就 采用 536 这 个 MSS 值 。 为 什 
么 使 用 这 个 值 ? l 

2.4 给 在 第 1 章 中 讲解 的 时 间 获 取 客 户 /服务 器 应 用 画 出 类 似 于 图 2-5 的 分 组 交换 过 程 ， 假 设 服 务 器 在 单个 
TCP 分 节 中 返回 26 个 字 节 的 完整 数据 。 

2.5 ”在 一 个 以 太 网 上 的 主机 和 一 个 令 牌 环 网 上 的 主机 之 间 建 立 一 个 连接 , 其 中 以 太 网 上 主机 的 TCP 通 告 的 
MSS 为 1460， 令 牌 环 网 上 主机 的 TCP 通 告 的 MSS 为 4096。 两 个 主机 都 没有 实现 路 径 MTU 发 现 功能 。 
观察 分 组 ， 我 们 在 两 个 相反 方向 上 都 找 不 到 大 于 1460 字 节 的 数据 ， 为 什么 ? 

2.6 在 讲解 图 2-19 时 我 们 说 过 OSPF 直 接 使 用 趾 。 承 载 OSPF 数 据 报 的 IPv4 首 部 《〈 见 图 A-1) 的 协议 字段 是 
什么 值 ? 

23 在 讨论 SCTP 输 出 时 我 们 说 过 ，SCTP 发 送 端 必须 等 待 累积 确认 点 超过 已 发 送 的 数据 , 才 可 以 从 套 接 字 
缓冲 区 中 释放 该 数据 。 假 设 某 个 选择 性 确认 (SACK) 表明 累积 确认 点 之 后 的 数据 也 得 到 了 确认 ， 这 
样 的 数据 为 什么 却 不 能 被 释放 呢 ? 
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3.4 概述 


本 章 开始 讲解 套 接 字 API。 我 们 从 套 接 字 地 址 结构 开始 讲解 ， 本 书 中 几乎 每 个 例子 都 用 到 
它们 。 这 些 结构 可 以 在 两 个 方向 上 传递 ， 从 进程 到 内 核 和 从 内 核 到 进程 。 其 中 从 内 核 到 进程 方 
向 的 传递 是 值 -结果 参数 的 一 个 例子 ， 我 们 会 在 本 书 中 讲 到 这 些 参数 的 许多 例子 。 

地 址 转换 函数 在 地 址 的 文本 表达 和 它们 存放 在 套 接 字 地 址 结构 中 的 二 进 制 值 之 间 进 行 转 
换 。 多 数 现存 的 IPv4 代 码 使 用 inet_adar 和 inet_ntoa 这 两 个 函数 ， 不 过 两 个 新 函数 inet_pton 
和 inet_ntop 同 时 适用 于 IPv4 和 IPv6 两 种 代码 。 

这 些 地 址 转换 函数 存在 的 一 个 问题 是 它们 与 所 转换 的 地 址 类 型 协议 相关 ， 要 考虑 究竟 是 
IPv4 地 址 还 是 IPv6 地 址 。 为 克服 这 个 问题 , 我们 开发 了 一 组 名 字 以 sock_ 开 头 的 函数 ,它们 以 协 
议 无 关 方式 使 用 套 接 字 地 址 结构 。 我 们 将 贯穿 全 书 使 用 这 组 函数 ， 使 我 们 的 代码 与 协议 无 关 。 


3.2” 套 接 字 地 址 结构 


大 多 数 套 接 字 函数 都 需要 一 个 指向 套 接 字 地 址 结构 的 指针 作为 参数 。 每 个 协议 族 都 定义 它 
自己 的 套 接 字 地 址 结构 。 这 些 结构 的 名 字 均 以 sockaddr_ 开 头 ， 并 以 对 应 每 个 协议 族 的 唯一 后 
mA. 


3.2.1 IPv4 套 接 字 地 址 结构 


IPv4 套 接 字 地 址 结构 通常 也 称 为 “网 际 套 接 字 地 址 结构 ” 它 以 sockadar_in 命 名 ， 定 义 在 
<netinet/in.h> 头 文件 中 。 图 3-1 给 出 了 它 的 POSIX 定 义 。 
struct in_addr { 


in_addr_t s_addr; /* 32-bit IPv4 address */ 
/* network byte ordered */ 











}; 
struct sockaddr_in { 


uint8 t sin len; /* length of structure (16) */ 

sa family t sin family; /* AF INET */ 

in port t sin port; /* 16-bit TCP or UDP port number */ 
/* network byte ordered */ 

struct in_addr sin_addr; /* 32-bit IPv4 address */ 
/* network byte ordered */ 

char sin_zero[8]; /* unused */ 


图 3-1 网 际 CIPv4D 套 接 字 地 址 结构 : sockaddr in 
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利用 图 3-1 所 示 的 例子 ， 我 们 对 套 接 字 地 址 结构 做 几 点 一 般 性 的 说 明 。 

e 长 度 字 段 sin_len 是 为 增加 对 OSI 协 议 的 支持 而 随 4.3BSD-Reno 添 加 的 ( 见 图 1-15)。 在 此 
之 前 ， 第 一 个 成 员 是 sin_family， 它 是 一 个 无 符号 短 整 数 (unsigned short). FRE 
所 有 的 厂家 都 支持 套 接 字 地 址 结构 的 长 度 字 段 ， 而 且 POSIX 规 范 也 不 要 求 有 这 个 成 员 。 
该 成 员 的 数据 类 型 uint8_t 是 典型 的 , 符合 POSIX 的 系统 都 提供 这 种 形式 的 数据 类 型 ( 见 
图 3-2)。 

正 是 因为 有 了 长 度 字段 ， 才 简化 了 长 度 可 变 套 接 字 地 址 结构 的 处 理 。 

即使 有 长 度 字 段 ,我 们 也 无 须 设置 和 检查 它 ， 除 非 涉及 路 由 套 接 字 ( 见 第 18 章 )。 它 是 由 
处 理 来 自 不 同 协议 族 的 套 接 字 地 址 结构 的 例 程 (例如 路 由 表 处 理 代码 ) 在 内 核 中 使 用 的 。 


在 源 自 Berkeley 的 实现 中 ， 从 进程 到 内 核 传递 套 接 字 地 址 结构 的 4 个 套 接 字 函数 (bind, 
connect. sendto#sendmsg ) 都 要 调用 sockargs 函 数 ( 见 TCPv2 第 452 页 )。 该 函数 从 进 
程 复制 套 接 字 地 址 结构 , 并 显 式 地 把 它 的 sin_len 字 段 设置 成 早先 作为 参数 传递 给 这 4 个 函数 
的 该 地 址 结构 的 长 度 。 从 内 核 到 进程 传递 套 接 字 地 址 结构 的 5 个 套 接 字 函 数 分 别 是 accept、 
recvVfrom、recvmsg、getpeername 和 getsockname， 均 在 返回 到 进程 之 前 设置 sin_len 字 段 。 

遗憾 的 是 ， 通 常 没有 简单 的 编译 时 测试 来 确定 一 个 实现 是 否 为 它 的 套 接 字 地 址 结构 定义 
了 长 度 字段 。 在 我 们 的 代码 中 ， 我 们 通过 测试 HAVE_SOCKADDR_SA_LEN 常 值 ( 见 图 D.2) 来 
确定 ， 然 而 是 否定 义 该 常 值 则 需 编 译 一 个 使 用 这 一 可 选 结构 成 员 的 简单 测试 程序 ， 并 看 是 否 
编译 成 功 来 决定 。 在 图 3-4 中 我 们 将 看 到 ， 如 果 套 接 字 地 址 结构 有 长 度 字 段 ， 则 IPv6 实 现 需 定 
义 SIN6_LEN。 一 些 IPv4 实 现 (例如 Digital Unix) 基于 某 个 编译 时 选项 (例如 _SOCKADDR_LEN ) 
确定 是 否 给 应 用 程序 提供 套 接 字 地 址 结构 中 的 长 度 字段 .这 个 特性 为 较 早 的 程序 提供 了 兼容 性 ， 


POSIX 规 范 只 需要 这 个 结构 中 的 3 个 字段 : sin_family. sin_addr#ilsin_port. XÍ F4 
合 POSIX 的 实现 来 说 ， 定 义 额外 的 结构 字段 是 可 以 接受 的 ， 这 对 于 网 际 套 接 字 地 址 结构 
来 说 也 是 正常 的 。 几乎 所 有 的 实现 都 增加 了 sin_zero 字 段 , 所 以 所 有 的 套 接 字 地 址 结构 
大 小 都 至 少 是 16 字 节 。 

我 们 给 出 了 字段 s_addr、 sin_family 和 sin_port 的 POSIX 数 据 类 型 。in_addr t 数 据 
类 型 必须 是 一 个 至 少 32 位 的 无 符号 整数 类 型 ，in_port_t 必 须 是 一 个 至 少 16 位 的 无 符号 
整数 类 型 ， 而 sa_family 上 可 以 是 任何 无 符号 整数 类 型 。 在 支持 长 度 字 段 的 实现 中 ， 
sa family 通常 是 一 个 8 位 的 无 符号 整数 ， 而 在 不 支持 长 度 字段 的 实现 中 , 它 则 是 一 个 
16 位 的 无 符号 整数 。 图 3-2 列 出 了 POSIX 定 义 的 这 些 数据 类 型 以 及 后 面 将 会 遇 到 的 其 他 
POSIX 数 据 类 型 。 


数据 类 型 


int8_t 带 符号 的 8 位 整数 













<sys/types.h> 






























uint8 t 无 符号 的 8 位 整数 «sys/types.h» 
intlé t 带 符号 的 16 位 整数 «sys/types.h» 
uint16 t 无 符号 的 16 位 整数 «sys/types.h» 
int32 t 带 符号 的 32 位 整数 <sys/types.h> 












uint32_t 
sa_family_t 
in addr t 


<sys/types.h> 


<sys/socket .h> 
<sys/socket .h> 


<netinet/in.h> 


无 符号 的 32 位 整数 
套 接 字 地 址 结构 的 地 址 族 
套 接 字 地 址 结构 的 长 度 ， : 般 为 uint32._t 
IPv4 地 址 ， 一 般 为 uint32_t 
TCP 或 UDP 端 口 ， 一 般 为 uint16_t 


图 3-2 ” POSIX 规范 要 求 的 数据 类 型 











<netinet/in.h> 
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e 我 们 还 将 遇 到 数据 类 型 wu_char、u_shorct、u_int 和 u_long, 它们 都 是 无 符号 的 。POSIX 
规范 定义 这 些 类 型 时 特地 标记 它们 已 过 时 ， 仅 是 为 向 后 兼容 才 提 供 的 。 

e IPv4 地 址 和 TCP 或 UDP 端 口号 在 套 接 字 地 址 结构 中 总 是 以 网 络 字 节 序 来 存储 。 在 使 用 这 
些 字段 时 ， 我 们 必须 牢记 这 一 点 。 我 们 将 在 3.4 节 中 详细 说 明 主 机 字 节 序 与 网 络 字 节 序 的 
区 别 。 

e 32 位 IPv4 地 址 存在 两 种 不 同 的 访问 方法 。 举 例 来 说 ， 如 果 serv 定 义 为 某 个 网 际 套 接 字 地 
址 结构 ， 那 么 serv.sin_adar 将 按 in_addr 结 构 引用 其 中 的 32 位 IPv4 地 址 ， 而 
serv.sin_addr.s_addr 将 按 in_addr_t (通常 是 一 个 无 符号 的 32 位 整数 ) 引用 同一 个 
32 位 IPv4 地 址 。 因 此 ， 我 们 必须 正确 地 使 用 IPv4 地 址 ， 尤 其 是 在 将 它 作 为 函数 的 参数 时 ， 
因为 编译 器 对 传递 结构 和 传递 整数 的 处 理 是 完全 不 同 的 。 


sin_addr 字 上 段 是 一 个 结构 ， 而 不 仅仅 是 一 个 in_addr_t 类 型 的 无 符号 长 整数 ， 这 是 有 
历史 原因 的 。 早 期 的 版 本 ( 4.2BSD ) 把 in_addr 结 构 定 义 为 多 种 结构 的 联合 (union ) ， 允 
许 访问 一 个 32 位 IJPv4 地 址 中 的 所 有 4 个 字 节 ,或 者 访问 它 的 2 个 16 位 值 .这 用 在 地 址 被 划分 成 A、 
B 和 C 三 类 的 时 期 , 便于 获取 地 址 中 的 适当 字 节 。 然 而 随 着 子 网 划分 技术 的 来 临 和 无 类 地 址 编 
db CLA ACE) 的 出 现 ， 各 种 地 址 类 正在 消失 ， 那 个 联合 已 不 再 需要 了 。 如 今 大 多 数 系统 已 经 
文 除了 该 联合 ， 转 而 把 in_addr 定 义 为 仅 有 一 个 in_adqdr_t 字 段 的 结构 。 


e sin_zero 字 段 未 曾 使 用 , 不 过 在 填写 这 种 套 接 字 地 址 结构 时 , 我 们 总 是 把 该 字段 置 为 0。 
按照 惯例 ， 我 们 总 是 在 填写 前 把 整个 结构 置 为 9%， 而 不 是 单单 把 sin_zero 字 段 置 为 0。 


尽管 多 数 使 用 该 结构 的 情况 不 要 求 这 一 字段 为 0， 但 是 当 捆 绑 一 个 非 通 配 的 IPv4 地 址 时 ， 
该 字段 必须 为 0 (TCPv2 第 731 -~ 732 页 ) . 


e 套 接 字 地 址 结构 仅 在 给 定 主机 上 使 用 : 虽然 结构 中 的 某 些 字段 〈 例 如 了 地 址 和 端口 号 ) 
用 在 不 同 主机 之 间 的 通信 中 ， 但 是 结构 本 身 并 不 在 主机 之 间 传 递 。 


3.22 通用 套 接 字 地 址 结构 


当 作 为 一 个 参数 传递 进 任何 套 接 字 函数 时 ， 套 接 字 地 址 结构 总 是 以 引用 形式 (也 就 是 以 指 
向 该 结构 的 指针 ) 来 传递 。 然 而 以 这 样 的 指针 作为 参数 之 一 的 任何 套 接 字 函数 必须 处 理 来 自 所 
支持 的 任何 协议 族 的 套 接 字 地 址 结构 。 

在 如 何 声明 所 传递 指针 的 数据 类 型 上 存在 一 个 问题 。 有 了 ANSIC 后 解决 办 法 很 简单 : void 
* 是 通用 的 指针 类 型 。 然 而 套 接 字 函 数 是 在 ANSI C 之 前 定义 的 ， 在 1982 年 采取 的 办 法 是 在 
«sys/socket .h> 头 文件 中 定义 一 个 通用 的 套 接 字 地 址 结构 ， 如 图 3-3 所 示 。 


struct sockaddr { 


uint8 t sa len; 
sa family t sa family; /* address family: AF xxx value */ 
char sa, data[14); /* protocol-specific address */ 


}; 
图 3-3 ”通用 套 接 字 地 址 结构 ;sockadar 
于 是 套 接 字 函 数 被 定义 为 以 指向 某 个 通用 套 接 字 地 址 结构 的 一 个 指针 作为 其 参数 之 一 ， 这 
正如 bind 函 数 的 ANSI C 函 数 原型 所 示 : 


int bind(int, struct sockaddr *, socklen t); 


这 就 要 求 对 这 些 函 数 的 任何 调用 都 必须 要 将 指向 特定 于 协议 的 套 接 字 地 址 结构 的 指针 进行 
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类 型 强制 转换 〈casting)， 变 成 指向 某 个 通用 套 接 字 地 址 结构 的 指针 ， 例 如 ; 


struct sockaddr in serv; /* IPv4 socket address structure */ 
/* fill in serv() */ 


bind(sockfd, (struct sockaddr *) &serv, sizeof(serv]]); 


如 果 我 们 省 略 了 其 中 的 类 型 强制 转换 部 分 “ (struct. sockaddr *)”， 并 假设 系统 的 头 文 
件 中 有 bind 函 数 的 一 个 ANSIC 原 型 ,那么 C 编 译 器 就 会 产生 这 样 的 警告 信息 :“warning: passing 
arg 2 of 'bind' from incompatible pointer type.” (Si: 把 不 兼容 的 指针 类 型 传递 给 “bind” 函 数 
的 第 二 个 参数 。) 

从 应 用 程序 开发 人 员 的 观点 看 ， 这 些 通用 套 接 字 地 址 结构 的 唯一 用 途 就 是 对 指向 特定 于 协 
议 的 套 接 字 地 址 结构 的 指针 执行 类 型 强制 转换 。 


回顾 一 下 1.2 节 ， 在 我 们 自己 的 unp .h 头 文件 中 ， 把 SA 定义 为 struct sockaddr A X 79 
了 缩短 类 型 强制 转换 这 些 指 针 所 必须 写 的 代码 。 

从 内 核 的 角度 看 ， 使 用 指向 通用 套 接 字 地 址 结构 的 指针 另 有 原因 : 内 核 必 须 取 调 用 者 的 
指针 ， 把 它 类 型 强制 转换 为 struct sockaddr * 类 型 ， 然 后 检查 其 中 sa_family 字 段 的 值 
来 确定 这 个 结构 的 真实 类 型 。 然 而 从 应 用 程序 开发 人 员 的 角度 看 ， 要 是 voidG * 这 个 指针 类 型 
可 用 那 就 更 简单 了 ， 因 为 无 须 显 式 进行 类 型 强制 转换 . 


3.2.3 IPv6 套 接 字 地 址 结构 
IPv6 套 接 字 地 址 结构 在 <netinetyin.h> 头 文件 中 定义 ， 如 图 3-4 所 示 。 


struct in6 addr ( 
unit8 t s6_addr[16]; /* 128-bit IPv6 address */ 
/* network byte ordered */ 
}; 


#define SIN6 LEN /* required for compile-time tests */ 
struct sockaddr in6 { 
uintB8 t sin6 len; /* length of this struct (28) */ 
sa family t sin6 family; /* AF INET6 */ 
in port t sin6 port; /* transport layer port# */ 
/* network byte ordered */ 
uint32 t sin6 flowinfo; /* flow information, undefined */ 
struct in6 addr sin6_addr; /* IPv6 address */ 
/* network byte ordered */ 
uint32_t sin6_scope_id; /* set of interfaces for a scope */ 


图 3-4 ”IPv6 套 接 字 地 址 结构 : sockaddr_in6 


关于 IPv6 对 于 套 接 字 API 的 扩展 定义 在 RFC 3493 中 [Gilligan et al. 2003] . 


对 于 图 3-4 我 们 要 注意 以 下 几 点 。 

e 如 果 系 统 支持 套 接 字 地 址 结构 中 的 长 度 字段 ， 那 么 STN6_LEN 常 值 必 须 定义 。 

e IPv6 的 地 址 族 是 AF_INET6， 而 IPv4 的 地 址 族 是 AF_INET。 

e 结构 中 字段 的 先后 顺序 做 过 编排 , 使 得 如 果 sockaddr_in6 结 构 本 身 是 64 位 对 齐 的 , 那么 
128 位 的 sin6_aGdr 字 段 也 是 64 位 对 齐 的 。 在 一 些 64 位 处 理 机 上 ,如果 64 位 数据 存储 在 某 
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个 64 位 边界 位 置 ， 那 么 对 它 的 访问 将 得 到 优化 处 理 。 
e sin6_flowinfo 字 段 分 成 两 个 字段 : 
a 低 序 20 位 是 流标 (flow label); 
m 高 序 12 位 保留 。 
流标 字段 随 图 A-2 讲 解 。 它 的 使 用 仍然 是 一 个 研究 课题 。 
e 对 于 具备 范围 的 地 址 (scoped address)，sin6_scope_ia 字 段 标识 其 范围 (scope), m% 
见 的 是 链 路 局 部 地 址 (link-local address〉 的 接口 索引 Cinterface index)〔( 见 A.5 节 )。 


3.2.4 新 的 通用 套 接 字 地 址 结构 


作为 IJPv6 套 接 字 API 的 一 部 分 而 定义 的 新 的 通用 套 接 字 地 址 结构 克服 了 现 有 struct 
sockaddr 的 一 些 缺 点 。 不 像 struct sockaddr， 新 的 struct sockaddr_storage 足 以 容纳 系 
统 所 支持 的 任何 套 接 字 地 址 结构 。sockadGdr._storage 结 构 在 <netinet/in.h> 头 文件 中 定义 ， 
如 图 3-5 所 示 。 

struct sockaddr storage { 

uint8 t ss len; /* length of this struct (implementation dependent) */ 

sa family t ss family; /* address family: AF, xxx value */ 

/* implementation-dependent elements to provide: 

* a) alignment sufficient to fulfill the alignment requirements of 


* all socket address types that the system supports. 

* b) enough storage to hold any type of socket address that the 
* system supports. 

*/ 


3 
图 3-5 ”存储 套 接 字 地 址 结构 : sockaddr storage 


sockaddr_storage 类 型 提供 的 通用 套 接 字 地 址 结构 相 比 sockadar 存 在 以 下 两 点 差别 。 

(1) 如 果 系 统 支持 的 任何 套 接 字 地 址 结构 有 对 齐 需 要 ， 那 么 sockaddr_storage 能 够 满足 最 
苛刻 的 对 齐 要 求 。 

(2) sockaddqr_storage 足 够 大 ， 能 够 容纳 系统 支持 的 任何 套 接 字 地 址 结构 。 

注意 ， 除 了 ss_family 和 ss_len 外 (如 果 有 的 话 )，sockaddr_storage 结 构 中 的 其 他 字段 
对 用 户 来 说 是 透明 的 sockaddr_storage 结 构 必 须 类 型 强制 转换 成 或 复制 到 适合 于 ss_family 
字段 所 给 出 地 址 类 型 的 套 接 字 地 址 结构 中 ， 才 能 访问 其 他 字段 。 


3.2.5 和 套 接 字 地 址 结构 的 比较 


在 图 3-6 中 ， 我 们 对 本 书 将 遇 到 的 $ 种 套 接 字 地 址 结构 进行 了 比较 : IPv4、IPv6、Unix 域 ( 见 
图 15-1)、 数 据 链 路 〈 见 图 18-1) 和 存储 。 在 该 图 中 ， 我 们 假设 所 有 套 接 字 地 址 结构 都 包含 一 个 
单字 节 的 长 度 字段 ， 地 址 族 字段 也 占用 一 个 字 节 ， 其 他 所 有 字段 都 占用 确切 的 最 短 长 度 。 

前 两 种 套 接 字 地 址 结构 是 固定 长 度 的， 而 Unix 域 结构 和 数据 链 路 结构 是 可 变 长 度 的 。 为 了 
处 理 长 度 可 变 的 结构 ， 当 我 们 把 指向 某 个 套 接 字 地 址 结构 的 指针 作为 一 个 参数 传递 给 某 个 套 接 
字 函 数 时 ， 也 把 该 结构 的 长 度 作为 另 一 个 参数 传递 给 这 个 函数 。 我 们 在 每 种 长 度 固定 的 结构 下 
方 给 出 了 这 种 结构 的 字 节 数 长 度 〈 就 4.4BSD 实 现 而 言 )。 


sockadar_un 结 构 本 身 并 非 长 度 可 变 的 ( 见 图 1$-1 ) ， 但 是 其 中 的 信息 ( 即 结构 中 的 路 
径 名 ) 却 是 长 度 可 变 的 。 当 传递 指向 这 些 结构 的 指针 时 ， 我 们 必须 小 心 处 理 长 度 字段 ， 包 括 
套 接 字 地 址 结构 本 身 的 长 度 字 段 ( 如 果 其 实现 支持 此 字段 ) ， 以 及 作为 参数 传 给 内 核 或 从 内 
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核 返 回 的 长 度 。 : 

本 图 展示 了 我 们 贯穿 全 书 的 一 种 风格 : 结构 名 用 加 粗 字体 ， 后 跟 花 括号 ， 例 如 
Sockaddr in(). 

我 们 早先 指出 ， 长 度 字段 是 随 着 4.3BSD Reno 版 本 增加 到 所 有 套 接 字 地 址 结构 中 的 . 要 是 
长 度 字段 随 套 接 字 API 的 原始 版 本 提供 了 ,那么 所 有 套 接 字 函 数 就 不 再 需要 长 度 参数 一 例如 
binda 和 connect 函 数 的 第 三 个 参数 。 相反， 结构 的 大 小 可 以 包含 在 结构 的 长 度 字段 中 ， 
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固定 长 度 (28 字 节 ) 
图 3-4 





可 变 长 度 
图 15-1 


图 3-6 “不同 套 接 字 地 址 结构 的 比较 








我 们 提 到 过 ， 当 往 一 个 套 接 字 函 数 传递 一 个 套 接 字 地 址 结构 时 ， 该 结构 总 是 以 引用 形式 来 
传递 ， 也 就 是 说 传递 的 是 指向 该 结构 的 一 个 指针 。 该 结构 的 长 度 也 作为 一 个 参数 来 传递 ， 不 过 
其 传递 方式 取决 于 该 结构 的 传递 方向 ， 是 从 进程 到 内 核 ， 还 是 从 内 核 到 进程 。 


(1) 从 进程 到 内 核 传递 套 接 字 地 址 结构 的 函数 有 3 个 ， bind、connect 和 sendto。 这 些 函 数 
的 一 个 参数 是 指向 某 个 套 接 字 地 址 结构 的 指针 ， 另 一 个 参数 是 该 结构 的 整数 大 小 ， 例 如 : 


Struct sockaddr in serv; 


/* fill in serv() */ 

connect (sockfd, (SA *) &serv, sizeof(serv)); 

既然 指针 和 指针 所 指 内 容 的 大 小 都 传递 给 了 内 核 ， 于 是 内 核 知道 到 底 需 从 进程 复制 多 少数 
据 进 来 。 图 3-7 展 示 了 这 个 情形 。 
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图 3-7 从 进程 到 内 核 传递 套 接 字 地 址 结构 


我 们 将 在 下 一 章 中 看 到 , 套 接 字 地 址 结构 大 小 的 数据 类 型 实际 上 是 socklen_t, 而 不 是 int， 
不 过 POSIX 规 范 建议 将 socklen_t 定 义 为 uint32_t。 

(2) 从 内 核 到 进程 传递 套 接 字 地 址 结构 的 函数 有 4 个 : accept、recvfrom、getsockname 
和 getpeername。 这 4 个 函数 的 其 中 两 个 参数 是 指向 某 个 套 接 字 地 址 结构 的 指针 和 指向 表示 该 结 
构 大 小 的 整数 变量 的 指针 。 例 如 : 

struct sockaddr un cli; /* Unix domain */ 


socklen t len; 


len - sizeof(cli); /* len is a value */ 
getpeername(unixfd, (SA *) &cli, &len); 
/* len may have changed */ 


把 套 接 字 地 址 结构 大 小 这 个 参数 从 一 个 整数 改 为 指向 某 个 整数 变量 的 指针 ， 其 原因 在 于 ， CAR 
数 被 调用 时 ， 结 构 大 小 是 一 个 值 (value)， 它 告诉 内 核 该 结构 的 大 小 ， 这 样 内 核 在 写 该 结构 时 
不 至 于 越界 ;， 当 函数 返回 时 ， 结 构 大 小 又 是 一 个 结果 result)， 它 告诉 进程 内 核 在 该 结构 中 究 
竞 存储 了 多 少 信息 。 这 种 类 型 的 参数 称 为 值 -结果 (value-result〉 参 数 。 图 3-8 展 示 了 这 个 情形 。 


用 户 进程 





图 3-8 ”从 内 核 到 进程 传递 套 接 字 地 址 结构 
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我 们 将 在 图 4-11 中 看 到 一 个 值 -结果 参数 的 例子 。 
我 们 一 直 在 说 套 接 字 地 址 结构 是 在 进程 和 内 核 之 间 传 递 的 。 对 于 诸如 4.4BSD 之 类 的 实现 
来 说 ， 由 于 所 有 套 接 字 函 数 都 是 内 核 中 的 系统 调用 ， 因 此 这 是 正确 的 。 然 而 在 另外 一 些 实现 
特别 是 System V 中 ， 套 接 字 函数 只 是 作为 普通 用 户 进程 执 行 的 库 函 数 ， 这 些 子 数 与 内 核 中 的 
协议 栈 如 何 接口 是 这 些 实现 的 细节 问题 ， 对 我 们 来 说 通常 没有 任何 影响 。 然 而 为 简单 起 见 ， 
我 们 继续 说 这 些 结构 通过 诸如 bind 和 connect 等 函数 在 进程 与 内 核 之 间 进 行 传递 。 我 们 将 在 
C.1 节 看 到 ，System V 的 确 在 进程 和 内 核 之 间 传 递 套 接 字 地 址 结构 ， 不 过 那 是 作为 流 消 息 
(STREAMS message ) 的 一 部 分 传递 的 。 
传递 套 接 字 地 址 结构 的 函数 还 有 两 个 : recvmsg 和 sendmsg ( 见 14.5 节 )。 我 们 将 看 到 ， 
它们 套 接 字 地 址 结构 的 长 度 不 是 作为 玛 数 参数 而 是 作为 结构 字段 传递 的 。 
当 使 用 值 - 结 果 参 数 作为 套 接 字 地 址 结构 的 长 度 时 ,如 果 套 接 字 地 址 结构 是 固定 长 度 的 〈 见 
图 3-6)， 那 么 从 内 核 返 回 的 值 总 是 那个 固定 长 度 ， 例 如 IPv4 的 sockadadr_in 长 度 是 16，IPv6 的 
sockaGqdr_in6 长 度 是 28。 然 而 对 于 可 变 长 度 的 套 接 字 地 址 结构 (例如 Unix 域 的 sockadar_un)， 
返回 值 可 能 小 于 该 结构 的 最 大 长 度 〈 见 图 15-2)。 
在 网 络 编程 中 , 值 -结果 参数 最 常见 的 例子 是 所 返回 套 接 字 地 址 结构 的 长 度 。 不 过 本 书 中 我 
们 还 会 碰 到 其 他 值 -结果 参数 : 
e select 函数 中 间 的 3 个 参数 ( 见 6.3 节 ); 
e getsockopt 函 数 的 长 度 参数 〔( 见 7.2 节 ); 
e 使 用 recvmsg 函 数 时 ，msghdr 结 构 中 的 msg_namelen 和 msg_controllen 字 段 〈 见 14.5 
节 ); 
e ifconf 结 构 中 的 ifc_1len 字 段 〈 见 图 17-2); 
e sysct1l 函 数 两 个 长 度 参数 中 的 第 一 个 〈( 见 18.4 节 )。 


考虑 一 个 16 位 整数 , 它 由 2 个 字 节 组 成 。 内 存 中 存储 这 两 个 字 节 有 两 种 方法 : 一 种 是 将 低 序 
字 节 存储 在 起 始 地 址 ， 这 称 为 小 端 (little-endian〉 字 节 序 ， 另 一 种 方法 是 将 高 序 字 节 存储 在 起 
始 地 址 ， 这 称 为 大 端 〈big-endian) 字 节 序 。 图 3-9 展 示 了 这 两 种 格式 。 


内 存 地 址 增 大 方向 
地 址 4+1 地 址 4 


marni (anes ioe] 
| | 
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| | 


awe: [ arze | eee | 
地 址 4 











地 址 4+1 


内 存 地 址 增 大 方向 
图 3-9 16 位 整数 的 小 端 字 节 序 和 大 端 字 节 序 
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在 该 图 中 ， 我 们 在 顶部 标明 内 存 地 址 增长 的 方向 为 从 右 到 左 ， 在 底部 标明 内 存 地 址 增长 的 
方向 为 从 左 到 右 。 我 们 还 标明 最 高 有 效 位 (nost significant bit, MSB) 是 这 个 16 位 值 最 左边 一 
位 ， 最 低 有 效 位 (least significant bit, LSB) 是 这 个 16 位 值 最 右边 一 位 。 


术语 “小 端 ” 和 “大 端 ” 表示 多 个 字 节 值 的 哪 一 端 (小 端 或 大 端 ) 存储 在 该 值 的 起 始 
地 址 。 


遗憾 的 是 ， 这 两 种 字 节 序 之 间 没 有 标准 可 循 ， 两 种 格式 都 有 系统 使 用 。 我 们 把 某 个 给 定 系 
统 所 用 的 字 节 序 称 为 主机 字 节 序 Chost byte order)。 图 3-10 所 示 程 序 输 出 主机 字 节 序 。 








intro/byteorder.c 

1 #include "unp.h* 
2 int 
3 main(int argc, char **argv) 
4 í 
5 union ( 
6 short s; 
7 char c[sizeof(short)]; 
8 ) un; 
9 un.s - 0x0102; 
10 printf("$s: ", CPU, VENDOR, OS) ; 
LL if (sizeof(short) == 2) ( 
12 if (un.c(0] -- 1 && un.c[1] -- 2) 
13 printf("big-endianWn"); 
14 else if (un.c[0] == 2 && un.c[1] == 1) 
15 printf("little-endianWn"); 
16 else 
17 printf("unknownWn"); 
18 ) eise 
19 printf("sizeof(short) = %d\n", sizeof(short)); 
20 exit (0) ; 
21 ) 

~ intro/byteorder.c 








图 3-10 ”确定 主机 字 节 序 的 程序 


我 们 在 一 个 短 整 数 变量 中 存放 2 字 节 的 值 0ox0102， 然 后 查看 它 的 两 个 连续 字 节 cio] (对 应 
图 3-9 中 的 地 址 4) 和 cr[1] (对 应 图 3-9 中 的 地 址 4+1)， 以 此 确定 字 节 序 。 

字符 串 cPU_VENDOR_0S 是 由 GNU 的 autoconf 程 序 在 配置 本 书 中 的 软件 时 确定 的 ， 它 标识 
CPU 类 型 、 厂 家 和 操作 系统 版 本 。 这 里 我 们 给 出 一 些 例子 ， 它 们 是 这 个 程序 在 图 1-16 所 示 的 各 
个 系统 上 运行 的 结果 。 

freebsd4 $ byteorder 

i386-unknown-freebsd4.8: little-endian 


macosx $ byteorder 
powerpc-apple-darwin6.6: big-endian 


freebsd5 $ byteorder 
sparc64-unknown-freebsd5.1: big-endian 


aix $ byteorder 
powerpc-ibm-aix5.1.0.0: big-endian 


hpux $ byteorder 
hppal.1-hp-hpuxll.11: big-endian 
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linux % byteorder 
i586-pc-linux-gnu: little-endian 


solaris $ byteorder 
sparc-sun-solaris2.9: big-endian 


我 们 已 讨论 了 16 位 整数 的 字 节 序 。 显 然 ， 同 样 的 讨论 也 适用 于 32 位 整数 。 


当今 有 不 少 系统 能 够 在 系统 复位 时 ( 例如 MIPS 2000 ) ,或 者 在 运行 之 时 ( 例如 Inteli860 )， 
在 大 端 字 节 序 和 小 端 字 节 序 之 间 切 换 。 


既然 网 络 协议 必须 指定 一 个 网 络 字 节 序 (network byte order)， 作 为 网 络 编程 人 员 的 我 们 必 
须 清 楚 不 同 字 节 序 之 间 的 差异 。 举 例 来 说 ， 在 每 个 TCP 分 节 中 都 有 16 位 的 端口 号 和 32 位 的 IPv4 
地 址 。 发 送 协议 栈 和 接收 协议 栈 必 须 就 这 些 多 字 节 字段 各 个 字 节 的 传送 顺序 达成 一 致 。 网 际 协 
议 使 用 大 端 字 节 序 来 传送 这 些 多 字 节 整数 。 

从 理论 上 说 ， 具 体 实现 可 以 按 主 机 字 节 序 存 储 套 接 字 地 址 结构 中 的 各 个 字段 ， 等 到 需要 在 
这 些 字段 和 协议 首部 相应 字段 之 间 移 动 时 ， 再 在 主机 字 节 序 和 网 络 字 节 序 之 间 进 行 互 转 ， 让 我 
们 免 于 操心 转换 细节 。 然 而 由 于 历史 的 原因 和 POSIX 规 范 的 规定 ， 套 接 字 地 址 结构 中 的 某 些 字 
段 必 须 按 照 网 络 字 节 序 进行 维护 。 因 此 我 们 要 关注 如 何在 主机 字 节 序 和 网 络 字 节 序 之 间 相 互 转 
换 。 这 两 种 字 节 序 之 间 的 转换 使 用 以 下 4 个 函数 。 





#include <netinet/in.h> 
uintl6_t htons(uintl6 t hostlóbitvalue) ; 


uint32 t htonl(uint32 t host32bitvalue) ; 
均 返回 : 网络 字 节 序 的 值 


uintl6 t ntohs(uint16 t net/6bitvalue) ; 


uint32 t ntohl(uint32 t net32bitvalue) ; 





均 返回 : 主机 字 节 序 的 值 


在 这 些 函数 的 名 字 中 ，h 代 表 host，n 代 表 network，s 代 表 short，1 代 表 long。short 和 long 这 
两 个 称谓 是 出 自 4.2BSD 的 Digital VAX 实 现 的 历史 产物 。 如 今 我 们 应 该 把 s 视 为 一 个 16 位 的 值 ( 例 
如 TCP 或 UDP 端 口号 )， 把 1 视 为 一 个 32 位 的 值 ( 例 如 IPv4 地 址 )。 事 实 上 即使 在 64 位 的 Digital 
Alpha 中 ， 尽 管 长 整数 占用 64 位 ，htonl1 和 ntohi 函 数 操作 的 仍然 是 32 位 的 值 。 

当 使 用 这 些 函 数 时 ， 我 们 并 不 关心 主机 字 节 序 和 网 络 字 节 序 的 真实 值 〈 或 为 大 端 ， 或 为 小 
端 )。 我 们 所 要 做 的 只 是 调用 适当 的 函数 在 主机 和 网 络 字 节 序 之 间 转 换 某 个 给 定 值 。 在 那些 与 网 
际 协议 所 用 字 节 序 ( 大 端 》 相同 的 系统 中 ， 这 四 个 函数 通常 被 定义 为 空 宏 。 

除了 协议 首部 中 各 个 字段 的 字 节 序 问题 外 ， 我 们 将 在 5.18 节 和 习题 5.8 中 讨论 网 络 分 组 中 所 
含 数据 的 字 节 序 问题 。 

至 此 我 们 尚未 定义 字 节 (byte) 这 个 术语 。 既 然 几 乎 所 有 的 计算 机 系统 都 使 用 8 位 字 节 ， 我 
们 就 用 该 术语 来 表示 一 个 8 位 的 量 。 大 多 数 因特网 标准 使 用 入 位 组 Coctet) 这 个 术语 而 不 是 使 用 
字 节 来 表示 8 位 的 量 。 该 术语 起 始 于 TCP/P 发 展 的 早期 ， 当 时 许多 早期 的 工作 是 在 诸如 DEC-10 
这 样 的 系统 上 进行 的 ， 这 些 系统 就 不 使 用 8 位 的 字 节 。 

因特网 标准 中 另外 一 个 重要 的 约定 是 位 序 。 在 许多 作为 因特网 标准 的 RFC 文 档 中 ， 可 以 看 
到 类 似 如 下 的 分 组 “图 ” 示 《 该 文本 图 出 自 RFC 791， 是 IPv4 首 部 的 前 32 位 ): 
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0 1 2 3 

01234567890123456789012345678901 
Nee ee eee a ee a eat a a a le sale ele eel el eel el ie a a 
Iversion) IHL iType of Service| Total Length I 
十 一 十 一 十 一 上 一 二 一 十 一 十 一 二 一 十 一 十 一 二 一 十 一 十 一 二 一 卡 一 十 一 二 一 十 一 十 一 十 一 十 一 十 一 十 一 二 一 不 一 十 一 十 一 十 一 十 一 十 一 十 一 十 一 十 


它 表示 按照 在 线 绕 上 出 现 的 顺序 排列 的 4 个 字 节 (32 个 位 )， 最 左边 的 位 是 最 早出 现 的 最 高 
有 效 位 。 注意 位 序 的 编号 从 0 开始 ， 分 配给 最 高 有 效 位 的 编号 为 0。 我 们 应 该 开始 熟悉 这 种 记 法 ， 
以 方便 阅读 RFC 文 档 中 的 协议 定义 。 
20 世 纪 80 年 代 在 网 络 编程 上 存在 一 个 通病 : 在 Sun 工 作 站 ( 大 端 Motorola 68000) 上 开发 
代码 时 没有 调用 这 4 个 函数 中 的 任何 一 个 . 这 些 代 码 在 这 些 工作 站 上 都 能 运行 ,但 是 当 移植 到 
小 端 机 器 (例如 VAX 系 列 机 ) 上 时 ， 便 根本 不 能 工作 ， 


35 Sean 


操纵 多 字 节 字段 的 函数 有 两 组 ， 它 们 既 不 对 数据 作 解释 ， 也 不 假设 数据 是 以 空 字符 结束 的 
C 字 符 串 。 当 处 理 套 接 字 地 址 结构 时 , 我们 需要 这 些 类 型 的 函数 ， 因 为 我 们 需要 操纵 诸如 IP 地 址 
这 样 的 字段 ， 这 些 字段 可 能 包含 值 为 0 的 字 节 ， 却 并 不 是 C 字 符 串 。 以 空 字符 结尾 的 C 字 符 串 是 
由 在 <string.h> 头 文件 中 定义 、 名 字 以 str (表示 字符 串 ) 开头 的 函数 处 理 的 。 

名 字 以 b (表示 字 节 ) 开头 的 第 一 组 函数 起 源 于 4.2BSD， 几 乎 所 有 现今 支持 套 接 字 函 数 的 
系统 仍然 提供 它们 。 名 字 以 mem《〈 表 示 内 存 ) 开头 的 第 二 组 函数 起 源 于 ANSIC 标 准 ， 支 持 ANSI 
C 函 数 库 的 所 有 系统 都 提供 它们 。 

我 们 首先 给 出 源 自 Berkeley 的 函数 ， 本 书 中 我 们 只 使 用 其 中 一 个 一 一 bzero。( 我 们 使 用 它 
是 因为 它 只 有 2 个 参数 ， 比 起 3 个 参数 的 memset 函数 来 要 容易 记 些 ， 这 在 前 边 已 解释 过 。) 其 他 

两 个 函数 bcopy 和 bcmp 你 也 许 会 在 现 有 的 应 用 程序 中 见 到 。 
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#inciude <strings.h> 


void bzero(void *dest, size t nbytes); 


void bcopy(const void *src, void *dest, size t nbytes); 


int bemp(const void *pirl, const void *ptr2, size t nbytes); 
返回 : 若 相等 则 为 0， 否 则 为 非 0 


这 是 我 们 首次 遇 到 ANSI C 的 const 限 定 词 。 就 它 在 这 儿 的 三 处 使 用 来 说 ， 它 表示 所 限定 
的 指针 (src、ptr1 和 ptr2) 所 指 的 内 容 不 会 被 函数 更 改 。 换 匈 话 说， 函数 只 是 读 而 不 修改 由 
const 指 针 所 指 的 内 存单 元 。 


bzero 把 目标 字 节 串 中 指定 数目 的 字 节 置 为 0。 我 们 经 常 使 用 该 函数 来 把 一 个 套 接 字 地 址 结 
构 初 始 化 为 0。bcopy 将 指定 数目 的 字 节 从 源 字 节 串 移 到 目标 字 节 串 。bcmp 比 较 两 个 任意 的 字 节 
串 ， 若 相同 则 返回 值 为 0， 否 则 返回 值 为 非 0。 

我 们 随后 给 出 ANSI Cea: 





#include <string.h> 
void *memset(void *dest, int c, size t len); 


void *memcpy (void *dest, const void *src, size t nbytes); 


int mememp(const void *ptrl, const void *ptr2, size t nbytes); 


返回 ， 若 相等 则 为 0%， 否 则 为 <0 或 >0 
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memset 把 目标 字 节 串 指定 数目 的 字 节 置 为 值 c。 memcpy 类 似 bcopy， 不 过 两 个 指针 参数 的 
顺序 是 相反 的 。 当 源 字 节 串 与 目标 字 节 串 重 血 时 ，bcopy 能 够 正确 处 理 ， 但 是 memcpy 的 操作 结 
果 却 不 可 知 。 这 种 情形 下 必须 改 用 ANSI C 的 memmove 函 数 。 


记 住 memcpy 两 个 指针 参数 顺序 的 方法 之 一 是 记 着 它们 是 按照 与 C 中 的 赋值 语句 相同 的 顺 
序 从 左 到 右 书写 的 : 

dest = src; 

记 住 memset 最 后 两 个 参数 顺序 的 方法 之 一 是 认识 到 所 有 ANSI C 的 memXxX 函 数 都 需要 一 
个 长 度 参 数 ， 而 且 它 总 是 最 后 一 个 参数 。 


memcmp 比 较 两 个 任意 的 字 节 串 ， 若 相同 则 返回 9， 否 则 返回 一 个 非 0 值 ， 是 大 于 0 还 是 小 于 0 
则 取决 于 第 一 个 不 等 的 字 节 :如 果 ptr1 所 指 字 节 串 中 的 这 个 字 节 大 于 ptr2 所 指 字 节 中 的 对 应 字 
节 ， 那 么 大 于 0， 否 则 小 于 0。 我 们 的 比较 操作 是 在 假设 两 个 不 等 的 字 节 均 为 无 符号 字符 
(unsigned char) 的 前 提 下 完成 的 。 


3.6 inet_aton. inet_addr 和 inet_ntoa 函数 





在 本 节 和 下 一 节 ， 我 们 介绍 两 组 地 址 转换 函数 。 它 们 在 ASCII 字 符 串 (这 是 人 们 偏爱 使 用 
的 格式 ) 与 网 络 字 节 序 的 二 进 制 值 ( 这 是 存放 在 套 接 字 地 址 结构 中 的 值 ) 之 间 转 换 网 际 地 址 。 

(1) inet_aton、inet_addr 和 inet_ntoa 在 点 分 十 进 制 数 串 ( 例 如 “206.168. 112.96”) 
与 它 长 度 为 32 位 的 网 络 字 节 序 二 进 制 值 间 转换 IPv4 地 址 。 你 可 能 会 在 许多 现 有 代码 中 见 到 这 些 
函数 。 

(2) 两 个 较 新 的 函数 inet_pton 和 inet_ntop 对 于 IPv4 地 址 和 IPv6 地 址 都 适用 。 我 们 将 在 下 
一 节 中 讲解 它们 并 在 全 书 中 使 用 它们 。 


#include «arpa/inet.h» 
int inet aton(const char *strptr, struct in_addr *addrptr); 
返回 : 若 字 符 串 有 效 则 为 1， 和 否则 为 0 


in addr t inet_addr(const char *strptr); 


返回 ， 若 字符 串 有 效 则 为 32 位 二 进 制 网络 字 节 序 的 IPv4 地 址 ， 否 则 为 TNADDR_NONE 


char *inet ntoa(struct in addr inaddr); 


返回 :指向 一 个 点 分 十 进 制 数 事 的 指针 


第 一 个 函数 inet_aton 将 strptr 所 指 C 字 符 串 转换 成 一 个 32 位 的 网 络 字 节 序 二 进 制 值 ， 并 通 
过 指针 addrptz 来 存储 。 若 成 功 则 返回 1， 和 否则 返回 0。 


inet_aton 肖 数 有 一 个 没 写 入 正式 文档 中 的 特征 : 如 果 addrptr 指 针 为 空 ， 那 么 该 函数 仍 
然 对 输入 的 字符 串 执 行 有 效 性 检查 ， 但 是 不 存储 任何 结果 。 


inet_addr 进 行 相 同 的 转换 ,返回 值 为 32 位 的 网 络 字 节 序 二 进 制 值 。 该 函数 存在 一 个 问题 : 
所 有 2 个 可 能 的 二 进 制 值 都 是 有 效 的 IP 地 址 (从 0.0.0.0 到 255.255.255.255)， 但 是 当 出 错时 该 函 
数 返 回 INADDR_NONE 常 值 (通常 是 一 个 32 位 均 为 1 的 值 )。 这 意味 着 点 分 十 进 制 数 串 
255.255.255.255〈 这 是 IPv4 的 有 限 广播 地 址 ， 见 20.2 节 ) 不 能 由 该 函数 处 理 ， 因 为 它 的 二 进 制 值 
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被 用 来 指示 该 函数 失败 。 


inet_addr 函 数 还 存在 一 个 潜在 的 问题 : 一 些 手 册页 面 声 明 该 函数 出 错时 返回 -1 而 不 是 
INADDR_NONE。 这 样 在 对 该 另 数 的 返回 值 ( 一 个 无 符号 的 值 ) 和 一 个 负 常 值 (-1) 进行 比较 
时 可 能 会 发 生 问题 ， 具 体 取决 于 C 编 译 器 。 


今 jnet_adGr 已 被 废弃 ， 新 的 代码 应 该 改 用 inet_aton 函 数 。 更 好 的 办 法 是 使 用 下 一 节 
中 介绍 的 新 函数 ， 它 们 对 于 IPv4 地 址 和 IPv6 地 址 都 适用 。 
inet_ntoa 函 数 将 一 个 32 位 的 网 络 字 节 序 二 进 制 IPv4 地 址 转换 成 相应 的 点 分 十 进 制 数 串 。 
由 该 函数 的 返回 值 所 指向 的 字符 串 驻 留 在 静态 内 存 中 。 这 意味 着 该 函数 是 不 可 重 入 的 ， 这 个 概 
念 我 们 将 在 11.18 节 中 讨论 。 最 后 需要 留意 ， 该 函数 以 一 个 结构 而 不 是 以 指向 该 结构 的 一 个 指针 
作为 其 参数 。 


函数 以 结构 为 参数 是 罕见 的 ， 更 常见 的 是 以 指向 结构 的 指针 为 参数 。 


3.7 inet _pton 和 inet ntop 函数 








这 两 个 函数 是 随 IPv6 出 现 的 新 函数 ， 对 于 IPv4 地 址 和 IPv6 地 址 都 适用 。 本 书 通 篇 都 在 使 用 
这 两 个 函数 。 函 数 名 中 p 和 n 分 别 代表 表达 (presentation) 和 数值 (numeric)。 地 址 的 表达 格式 
通常 是 ASCI 字 符 串 ， 数 值 格式 则 是 存放 到 套 接 字 地 址 结构 中 的 二 进 制 值 。 


#include <arpa/inet.h> 
int inet_pton(int family, const char *strptr, void *addrptr) ; 


返回 ， 攻 成 功 则 为 1， 若 输入 不 是 有 效 的 表达 格式 则 为 0， 若 出 错 则 为 -1 


const char *inet_ntop(int family, const void *addrptr, char *strptr, size t len); 


返回 ， 若 成 功 则 为 指向 结果 的 指针 ， 若 出 错 则 为 NULL 


这 两 个 函数 的 family 参 数 既 可 以 是 AF_INET， 也 可 以 是 AF_INET6。 如 果 以 不 被 支持 的 地 址 
族 作 为 family 参 数 ， 这 两 个 函数 就 都 返回 一 个 错误 ， 并 将 errno 置 为 EAFNOSUPPORT。 

第 一 个 函数 尝试 转换 由 strptr 指 针 所 指 的 字符 申 ， 并 通过 addrptr 指 针 存放 二 进 制 结果 。 若 成 
功 则 返回 值 为 1!1， 否 则 如 果 对 所 指定 的 famiby 而 言 输入 的 字符 串 不 是 有 效 的 表达 格式 ， 那 么 返回 
值 为 0。 

inet_ntop 进 行 相反 的 转换 ， 从 数值 格式 (addrptr) 转换 到 表达 格式 (strptr)。len 参 数 是 
目标 存储 单元 的 大 小 ， 以 免 该 函数 溢出 其 调用 者 的 缓冲 区 。 为 有 助 于 指定 这 个 大 小 ， 在 
<netinet/in.h> 头 文件 中 有 如 下 定义 : 





#define INET_ADDRSTRLEN 16 /* for IPv4 dotted-decimal */ 

#define INET6, ADDRSTRLEN 46 /* for IPv6 hex string */ 

如 果 len 太 小 ， 不 足以 容纳 表达 格式 结果 (包括 结尾 的 空 字符 )， 那 么 返回 一 个 空 指针 ， 并 
置 errno 为 ENOSPC。 


inet_ntop 函 数 的 strptr 参 数 不 可 以 是 一 个 空 指针 。 调 用 者 必须 为 目标 存储 单元 分 配 内 存 并 
指定 其 大 小 。 调 用 成 功 时 ， 这 个 指针 就 是 该 函数 的 返回 值 。 
图 3-11 总 结 了 这 一 节 和 上 一 节 中 我 们 讨论 过 的 5 个 函数 。 
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图 3-11 地 址 转换 函数 小 结 
示例 
即使 你 的 系统 还 不 支持 IPv6， 你 也 可 以 采取 下 列 措 施 开始 使 用 这 些 新 函数 ， 即 用 代码 


foo.sin addr.s adór = inet addr(cp); 


代替 代码 

inet pton(AF INET, cp, &foo.sin adádr); 
再 用 代码 

ptr - inet ntoa(foo.sin addr); 
代替 代码 


char Str[INET_ADDRSTRLEN] ; 
ptr = inet ntop(AF INET, &foo.sin addr, str, sizeof(str)); 


图 3-12 给 出 了 只 支持 IPv4 的 inet_pton 函 数 的 简单 定义 。 类 似 地 ， 图 3-13 给 出 了 只 支持 IPv4 
的 inet_ntop 函 数 的 简化 版 本 。 


libfree/inet pton ipv4.c 





10 int 

11 inet pton(int family, const char *strptr, void *addrptr) 
12 { 

13 if (family == AF INET) { 

14 struct in_addr in_val; 

15 if (inet_aton(strptr, &in_val)) { 

16 memcpy (aGdrptr, &in val, sizeof(struct in_addr)); 
17 return (1); 

18 } 

19 return(0); 

20 } 

21 errno = EAFNOSUPPORT; 

22 return (-1); 

23 ) 








libfree/inet pton ipv4.c 
图 3-12 ” 仅 支 持 IPv4 的 inet_pton 简 化 版 本 
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libfree/inet ntop ipv4.c 





8 const char * 
9 inet ntop(int family, const void *addrptr, char *strptr, size t len) 


10 ( 

11 const u char *p - (const u char *) addrptr; 
12 if (family == AF INET) { 

13 char temp[INET ADDRSTRLEN]; 

14 snprintf(temp, sizeof(temp), "$d.$d.*d.$d", p(0], p[1), p(21, pf3]); 
15 if (strlen(temp) »- len) ( 

16 errno - ENOSPC; 

17 return (NULL); 

18 ) 

19 strcpy(strptr, temp); 

20 return (strptr); 

21 ) 

22 errno - EAFNOSUPPORT; 

23 return (NULL); 

24 


libfree/inet ntop ipv4.c 


图 3-13 ” 仅 支持 IPv4 的 inet_ntop 简 化 版 本 
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3.8 sock ntop 和 相关 函数 


inet_ntop 的 一 个 基本 问题 是 : 它 要 求 调 用 者 传递 一 个 指向 某 个 二 进 制 地 址 的 指针 ， 而 该 
地 址 通常 包含 在 一 个 套 接 字 地 址 结构 中 ， 这 就 要 求 调 用 者 必须 知道 这 个 结构 的 格式 和 地 址 族 。 
这 就 是 说 ， 为 了 使 用 这 个 函数 ， 我 们 必须 为 IPv4 编 写 如 下 代码 : 


struct sockaddr in addr; 





inet ntop(AF INET, &addr.sin addr, str, sizeof(str)); 
或 为 IPv6 编 写 如 下 代码 : 

struct sockaddr in6  addr6; 

inet, ntop(AF. INET6, &addr6.sin6 addr, str, sizeof(str)); 
这 就 使 得 我 们 的 代码 与 协议 相关 了 。 

为 了 解决 这 个 问题 ， 我 们 将 自行 编写 一 个 名 为 sock_ntop 的 函数 ， 它 以 指向 某 个 套 接 字 地 
址 结构 的 指针 为 参数 ， 查 看 该 结构 的 内 部 ， 然 后 调用 适当 的 函数 返回 该 地 址 的 表达 格式 。 


#include "unp.h" 
char *sock ntop(const struct sockaddr *sockaddr, socklen t addrlen); 


返回 ， 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 


这 就 是 本 书 通 篇 使 用 的 我 们 自己 定义 的 函数 非 标 准 系 统 函 数 ) 的 说 明 形式 ; 包围 函数 
原型 和 返回 值 的 方 框 是 虚线 。 开 头 包 括 的 头 文件 通常 是 我 们 自己 的 unp.h。 


sockaddr 指 向 一 个 长 度 为 addrlen 的 套 接 字 地 址 结构 。 本 函数 用 它 自 己 的 静态 缓冲 区 来 保存 
结果 ， 而 指向 该 缓冲 区 的 一 个 指针 就 是 它 的 返回 值 。 


注意 : 对 结果 进行 静态 存储 导致 该 函数 不 可 重 入 且 非 线程 安全 。 这 些 概念 我 们 将 在 11.18 节 
中 进一步 讨论 。 对 于 该 函数 我 们 作 这 样 的 设计 决策 是 为 了 让 本 书 中 的 简单 例子 方便 地 调用 它 。 
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3.8 sock ntop 和 相关 函数 


表达 格式 就 是 在 一 个 IPv4 地 址 的 点 分 十 进 制 数 串 格式 之 后 ， 或 者 在 一 个 括 以 方 括号 的 IPv6 
地 址 的 十 六 进 制 数 串 格式 之 后 ， 跟 一 个 终止 符 〈 我 们 使 用 一 个 分 号 ， 类 似 于 URL 语 法 )， 再 跟 一 
个 十 进 制 的 端口 号 ， 最 后 跟 一 个 空 字符 。 因 此 ， 缓 冲 区 大 小 对 于 IPv4 至 少 为 INET_ADDRSTRLEN 
加 上 6 个 字 节 (16+6=22)， 对 于 IPv6 至 少 为 INET6_ADDRSTRLEN 加 上 8 个 字 节 (46+8=54)。 


图 3-14 中 我 们 给 出 了 该 函数 仅 为 AF_INET 情 形 下 的 源 代码 。 





5 char * 


6 sock ntop(const struct sockaddr *sa, socklen t salen) 

7 í 

B char portstr[8]; 

9 static char str[128]; /* Unix domain is largest */ 
10 switch (sa-»sa family) { 

11 case AF INET: { 

12 Struct sockaddr in*sin - (struct sockaddr in *) sa; 
13 if (inet ntop(AF  INET, &sin-»sin addr, str, sizeof(str)) == NULL) 
14 return (NULL); 

15 if (ntohs(sin-»sin port) != 0) ( 

16 snprintf(portstr, sizeof(portstr), ":%d", 

17 ntohs (sin-»sin port)); 

18 strcat(str, portstr); 

19 } 

20 return (str); 

21 } 





图 3-14 我们 自己 的 sock_ntop 函 数 


- lib/sock ntop.c 


lib/sock ntop.c 


我 们 还 为 操作 套 接 字 地 址 结构 定义 了 其 他 几 个 函数 ， 它 们 将 简化 我 们 的 代码 在 IPv4 与 IPv6 
之 间 的 移植 。 


#include “unp.h" 


int sock_bind_wild(int sockfd, int family); 
返回 :车 成 功 则 为 0， 若 出 错 则 为 -1 
int sock cmp addr(const struct sockaddr *sockaddrl, 
const struct sockaddr *sockaddr2, socklen, t addrlen) ; 


返回 ， 若 地 址 为 同一 协议 族 且 相同 则 为 0， 和 否则 为 非 0 


int sock cmp addr(const struct sockaddr *sockaddrl, 
const struct sockaddr *sockaddr2, socklen t addrlen); 


返回 : 若 地 址 为 同一 协议 族 且 端口 相同 则 为 0， 和 否则 为 非 0 


int sock get port(const struct sockaddr *sockaddr, socklen t addrlen) ; 


返回 : 若 为 ITPv4 或 了 Pv6 地 址 则 为 非 负 端 口号 ， 否 则 为 -1 


char *sock_ntop_host (const struct sockaddr *sockaddr, socklen t addrlen); 

返回 ， 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 
void sock set addr(const struct sockaddr *sockaddr, socklen, t addrlen, void *ptr); 
void sock set port(const struct sockaddr *sockaddr, socklen t addrlen, int port); 


void sock set wilid(struct sockaddr *sockaddr, socklen t addrlen); 


n———————————————————————————————————————— ` 


sock_bindq_wila 将 通 配 地 址 和 一 个 临时 端口 捆绑 到 一 个 套 接 字 。sock_cmp_addr 比 较 两 
个 套 接 字 地 址 结构 的 地 址 部 分 ，sock_cmp_port 则 比较 两 个 套 接 字 地 址 结构 的 端口 号 部 分 。 
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sock_get_port 只 返回 端口 号 。sock_ntop_host 把 一 个 套 接 字 地 址 结构 中 的 主机 部 分 转换 成 表 
达 格 式 〈 不 包括 端口 号 )。sock_set_addr 把 一 个 套 接 字 地 址 结构 中 的 地 址 部 分 置 为 ptr 指 针 所 
指 的 值 ，sock_set_port 则 只 设置 一 个 套 接 字 地 址 结构 的 端口 号 部 分 。sock_set_wila 把 一 个 
套 接 字 地 址 结构 中 的 地 址 部 分 置 为 通 配 地 址 。 跟 本 书 所 有 函数 一 样 ， 我 们 也 为 那些 返回 值 不 是 
void 的 上 述 函 数 提供 了 包 囊 函数 ， 它 们 的 名 字 以 s 开 头 ， 我 们 的 程序 通常 调用 这 些 包 庄 函 数 。 
我 们 不 给 出 所 有 这 些 函数 的 源 代 码 ， 不 过 它们 是 免费 可 得 的 〈 见 前 言 )。 


3.9 readn, writen 和 readline 函数 _ 





字 节 流 套 接 字 〈 例 如 TCP 套 接 字 ) 上 的 reada 和 write 函数 所 表现 的 行为 不 同 于 通常 的 文件 
IO。 字 节 流 套 接 字 上 调用 reaG 或 write 输入 或 输出 的 字 节 数 可 能 比 请 求 的 数量 少 ， 然 而 这 不 是 
出 错 的 状态 。 这 个 现象 的 原因 在 于 内 核 中 用 于 套 接 字 的 缓冲 区 可 能 已 达到 了 极限 。 此 时 所 需 的 
是 调用 者 再 次 调用 reaq 或 wrice 函 数 ， 以 输入 或 输出 剩余 的 字 节 。 有 些 版 本 的 Unix 在 往 一 个 管 c 
道中 写 多 于 4096 字 节 的 数据 时 也 会 表现 出 这 样 的 行为 。 这 个 现象 在 read- -个 字 节 流 套 接 字 时 很 常 
见 , 但 是 在 write 一 个 字 节 流 套 接 字 时 只 能 在 该 套 接 字 为 非 阻塞 的 前 提 下 才 出 现 。 尽管 如 此 ， 为 预 
防 万 一 ,不 让 实现 返回 一 个 不 足 的 字 节 计数 值 ， 我 们 总 是 改 为 调用 writen 函 数 来 取代 write 函数 。 

我 们 提供 的 以 下 3 个 函数 是 每 当 我 们 读 或 写 一 个 字 节 流 套 接 字 时 总 要 使 用 的 函数 。 


#include "unp.h" 

ssize t readn(int filedes, void *buff, size t nbytes); 

ssize_t written(int filedes, const void *buff, size t nbytes); 
ssize t readline(int filedes, void *buff, size t maxlen) ; 


均 返回 ， 读 或 写 的 字 节 数 ， 车 出 错 则 为 -1 


图 3-15 给 出 了 reaGn 函 数 ， 图 3-16 给 出 了 writen 函 数 ， 图 3-17 给 出 了 readline 函 数 。 





lib/readn.c 
1 #include "unp.h" 
2 ssize t /* Read "n" bytes from a descriptor. */ 
3 readn(int fd, void *vptr, size t n) 
4 { 
5 size_t nleft; 
6 ssize t nread; 
7 char *ptr; 
8 ptr - vptr; 
9 nleft - n; 
10 while (nleft » 0) ( 
11 if ( (nread = read(fd, ptr, nleft)) < 0) ( 
12 if (errno -- EINTR) 
13 nread - 0; /* and call read() again */ 
14 else 
15 return(-1); 
16 ) else if (nread == 0) 
17 break; /* EOF */ 
18 nleft -- nread; 
19 ptr += nread; 
20 ) 
21 return(n - nleft); /* return >= 0 */ 
22 } 
lib/readn.c 


图 3-15  reaàntR Zt: 从 一 个 描述 符 读 n 字 节 
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lib/writen.c 
1 #include "unp.h" 
2 ssize t /* Write "n" bytes to a descriptor. */ 
3 writen(int fd, const void *vptr, size t n) 
4{ 
5 size_t nleft; 
6 ssize_t nwritten; 
7 const char  *ptr; 
8 ptr - vptr; 
9 nleft = n; 
10 while (nleft » 0) ( 
11 if ( (nwritten - write(fd, ptr, nleft)) «- 0) ( 
12 if (nwritten « 0 && errno -- EINTR) 
13 nwritten - 0; /* and call write() again */ 
14 eise 
15 return(-1); /* exror */ 
16 ) 
17 nleft -- nwritten; 
18 ptr += nwritten; 
19 ) 
20 return(n); 
21 ) 
ee iib/writen.c 
图 3-16 writen: 往 一 个 描述 符 写 n 字 节 
OO 人 OC ———— test/readlinel.c 
1 #include "unp.h" 
2 /* PAINFULLY SLOW VERSION -- example only */ 
3 ssize t 
4 readline(int fd, void *vptr, size t maxlen) 
5t 
6 ssize t n, rc; 
7 char c, *ptr; 
8 ptr - vptr; 
9. for (n = 1; n < maxlen; n««) ( 
10 again: . 
11 if ( (rc = read(fd, &c, 1)) == 1) ( 
12 *ptr++ = C; 
13 if (c == '\n') 
14 break; /* newline is stored, like fgets() */ 
15 ) else if (rc -- 0) ( 
16 *ptr - 0; 
17 return(n - 1); /* EOF, n - 1 bytes were read */ 
18 ) else ( 
19 if (errno -- EINTR) 
20 goto again; 
21 return(-1); /* error, errno set by read() */ 
22 ) 
23 } 
24 *ptr = 0; /* null terminate like fgets() */ 
25 return(n); 
26 ) 
test/readlinel.c 


图 3-17 readline 函 数 : 从 一 个 描述 符 读 文本 行 ， 一 次 1 个 字 节 
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上 述 三 个 函数 查找 ETNTR 错 误 〈 表 示 系 统 调用 被 一 个 捕获 的 信号 中 断 ， 我 们 将 在 $.9 节 中 更 
详细 地 讨论 )， 如 果 发 生 该 错误 则 继续 进行 读 或 写 操作 。 既 然 这 些 函 数 的 作用 是 避免 让 调用 者 来 
处 理 不 足 的 字 节 计数 值 , 那么 我 们 就 地 处 理 该 错误 , 而 不 是 强迫 调用 者 再 次 调用 readqn 或 writen 
函数 。 

在 14.3 节 我 们 会 提 到 ，MSG_wWAITALL 标 志 可 随 recv 函 数 一 起 使 用 来 取代 独立 的 readn 函 
数 。 

注意 , 这 个 readline 函 数 每 读 一 个 字 节 的 数据 就 调用 一 次 系统 的 read 函 数 。 这 是 非常 低 效 
率 的 ， 为 此 我 们 特意 在 代码 中 注 明 “PAINFULLY SLOW〔 极 端 地 慢 )”。 当 面临 从 某 个 套 接 字 读 
入 文本 行 这 一 需求 时 ， 改 用 标准 IO 函数 库 〈 称 为 stdio) 相当 诱 人 。 我 们 将 在 14.8 节 中 详细 讨论 
这 种 方法 ， 不 过 预先 指出 这 是 种 危险 的 方法 。 解 决 本 性 能 问题 的 stdio 缓 冲 机 制 却 引发 许多 后 勤 
问题 ， 可 能 导致 在 应 用 程序 中 存在 相当 隐蔽 的 缺陷 。 究 其 原因 在 于 stdio 缓 冲 区 的 状态 是 不 可 见 
的 。 为 便于 深入 解释 ， 让 我 们 考虑 客户 和 服务 器 之 间 的 一 个 基于 文本 行 的 协议 ， 而 使 用 该 协议 
的 多 个 客户 程序 和 服务 器 程序 可 能 是 在 一 段 时 间 内 先后 实现 的 〈 这 种 情形 其 实 相当 普遍 ， 举 例 
来 说 ， 按 照 HTTP 规 范 独立 编写 的 Web 浏 览 器 程序 和 Web 服 务 器 程序 就 相当 之 多 )。 良 好 的 防御 
性 编程 (defensive programming) 技术 要 求 这 些 程序 不 仅 能 够 期 望 它们 的 对 端 程序 也 遵循 相同 的 
网 络 协 议 ， 而 且 能 够 检查 出 未 预期 的 网 络 数据 传送 并 加 以 修正 〈 恶 意 企 图 自然 也 被 检查 出 来 )， 
这 样 使 得 网 络 应 用 能 够 从 存在 问题 的 网 络 数据 传送 中 恢复 ， 可 能 的 话 还 会 继续 工作 。 为 了 提升 
性 能 而 使 用 stdio 来 缓冲 数据 违背 了 这 些 目标 ， 因 为 这 样 的 应 用 进程 在 任何 时 刻 都 没有 办 法 分 辨 
stdio 绥 冲 区 中 是 否 持 有 未 预期 的 数据 。 

基于 文本 行 的 网 络 协议 相当 多 ， 辟 如 SMTP、HTTP、FTP 的 控制 连接 协议 以 及 finger 等 。 因 
此 针对 文本 行 操作 这 一 需求 一 再 被 提出 。 然 而 我 们 的 建议 是 依照 缓冲 区 而 不 是 文本 行 的 要 求 来 
考虑 编程 。 编 写 从 缓冲 区 中 读 取 数 据 的 代码 ， 当 期 待 一 个 文本 行 时 ， 就 查看 缓冲 区 中 是 否 含有 
那 一 行 。 

图 3-18 给 出 了 readline 函 数 的 一 个 较 快 速 版 本 ， 它 使 用 自己 的 而 不 是 stdio 提 供 的 缓冲 机 
制 。 其 中 重要 的 是 read1ine 内 部 缓冲 区 的 状态 是 暴露 的 ， 这 使 得 调用 者 能 够 查看 缓冲 区 中 到 底 
收 到 了 什么 。 即 使 使 用 这 个 特性 ，read1line 仍 可 能 存在 问题 ， 具 体 见 6.3 节 。 诸 如 select 等 系 
统 函 数 仍然 不 可 能 知道 readline 使 用 的 内 部 缓冲 区 , 因此 编写 不 严谨 的 程序 很 可 能 发 现 自己 在 
select 上 等 待 的 数据 早已 收 到 并 存放 在 readline 的 缓冲 区 中 了 。 由 于 这 个 原因 ， 混 合 调用 
readn 和 readline 不 会 像 预 期 的 那样 工作 ， 除 非 把 readan 修 改 成 也 检查 该 内 部 缓冲 区 。 


— lib/readline.c 





1 #include "unp.h" 


2 static int read cnt; 
3 static char *read ptr; 
4 static char read buf [MAXLINE]; 


5 static ssize t 
6 my read(int fd, char *ptr) 
7 ( 


8 if (read cnt <= 0) ( 
9 again: 


10 if ( (read cnt = read(fd, read buf, sizeof(read_buf))) < 0) { 


图 3-18 readline 函 数 的 改进 版 
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3.9 readn. writen 和 readline 函数 


if (errno == EINTR) 
goto again; 
return (-1); 
} else if (read_cnt == 0) 
return (0); 
read ptr = read buf; 
) 


read cnt--; 
*ptr = *read_ptr++; 
return (1); 
} 
ssize_t 
readline(int fd, void *vptr, size_t maxlen) 
( 
ssize t n, rc; 
char c, *ptr; 


ptr - vptr; 
for (n = 1; n < maxlen; n++) ( 
if ( (rc = my read(fd, &c)) == 1) ( 
*ptre = C; 
if (c == 'Mn') 
break; /* newline is stored, like fgets() */ 
) else if (rc == 0) ( 
*ptr - 0; 
return(n - 1); /* EOF, n - 1 bytes were read */ 
) else 
return(-1); /* error, errno set by read() */ 
} 


*ptr = 0; /* null terminate like fgets() */ 
return (n); 


) 


ssize t 
readlinebuf (void **vptrptr) 
{ 
if (read_cnt) 
*vptrptr = read_ptr; 
return(read, cnt); 


lib/readline.c 


图 3-18 GE) 


内 部 函数 my_read 每 次 最 多 读 MAXLINE 个 字符 ， 然 后 每 次 返回 一 个 字符 。 
readline 函 数 本 身 的 唯一 变化 是 用 my_read 调 用 取代 read。 


readiinebuf 这 个 新 函数 能 够 展露 内 部 缓冲 区 的 状态 ， 便 于 调用 者 查看 在 当前 文本 行 


之 后 是 否 收 到 了 新 的 数据 。 


但 是 ， 在 readline.c 中 使 用 静态 变量 实现 跨 相 继 函 数 调用 的 状态 信息 维护 ， 其 结果 是 
这 些 函 数 变 得 不 可 重 入 或 者 说 非 线 程 安全 了 。 我 们 将 在 11.18 节 和 26.5 节 中 讨论 这 一 点 。 在 图 


26-11 中 我 们 将 使 用 特定 于 线程 的 数据 开发 一 个 线程 安全 的 版 本 。 
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” 套 接 字 地 址 结构 是 每 个 网 络 程序 的 重要 组 成 部 分 。 我 们 分 配 它们 ， 填 写 它们 ， 把 指向 它们 
的 指针 传递 给 各 个 套 接 字 函 数 。 有 时 我 们 把 指向 这 些 结构 之 一 的 指针 传递 给 一 个 套 接 字 函数 ， 
并 由 该 函数 填写 结构 内 容 。 我 们 总 是 以 引用 形式 来 传递 这 些 结构 (也 就 是 说 ， 我 们 传递 的 是 指 
向 结构 的 指针 , 而 不 是 结构 本 身 ), 而 旦 将 结构 的 大 小 作为 男 外 一 个 参数 来 传递 。 当 一 个 套 接 字 
函数 需要 填写 一 个 结构 时 ， 该 结构 的 长 度 也 以 引用 形式 传递 ， 这 样 它 的 值 也 可 以 被 函数 更 改 。 
我 们 把 这 样 的 参数 称 为 值 -结果 参数 。 

套 接 字 地 址 结构 是 自 定义 的 , 因为 它们 总 是 以 一 个 标识 其 中 所 含 地 址 之 协议 族 的 字段 开头 。 
支持 长 度 可 变 套 接 字 地 址 结构 的 较 新 实现 在 开头 还 包含 一 个 长 度 字 段 ， 它 含有 整个 结构 的 长 度 
信息 。 

在 表达 格式 〔 我 们 平时 书写 的 格式 ， 例 如 ASCII 字 符 串 ) 和 数值 格式 〈 存 放 到 套 接 字 地 址 
结构 中 的 格式 ) 之 间 转 换 了 地址 的 两 个 函数 是 inet_pton 和 inet_ntop。 虽 然 我 们 将 在 稍 后 的 
章节 中 使 用 这 两 个 函数 ， 但 是 必须 说 明 ， 它 们 是 协议 相关 的 。 操 纵 套 接 字 地 址 结构 的 更 好 方法 
是 把 它们 作为 不 透明 对 象 ， 仅 知道 指向 结构 的 指针 和 结构 的 大 小 而 已 。 按 照 这 种 方法 ， 我 们 开 
发 了 一 组 名 字 以 sock_ 开 头 的 函数 ， 协 助 实现 程序 的 协议 无 关 性 。 我 们 将 在 第 11 章 中 使 用 
getaddrinfo 和 getnameinfo 函 数 完成 这 套 协 议 无 关 工 具 的 开发 。 

TCP 套 接 字 为 应 用 进程 提供 了 一 个 字 节 流 ， 它 们 没有 记录 标记 。 从 TCP 套 接 字 read 的 返回 
值 可 能 比 我 们 请 求 的 数量 少 ， 但 是 这 不 表示 发 生 了 错误 。 为 帮助 读 或 写 一 个 字 节 流 ， 我 们 开发 
了 readn、writen 和 readline 这 3 个 函数 ， 并 在 全 书 中 广泛 使 用 。 对 于 文本 行 交互 的 应 用 来 说 ， 
程序 应 该 按照 操作 缓冲 区 而 非 按照 操作 文本 行 来 编写 。 


习题 


3.1 ”为 什么 诸如 套 接 字 地 址 结构 的 长 度 之 类 的 值 -结果 参数 要 用 指针 来 传递 ? 

32 ”为 什么 readn 和 writen 函 数 都 将 voia * 型 指针 转换 为 cnar * 型 指针 ? 

3.3 inet_aton 和 inet_addr 函 数 对 于 接受 什么 作为 点 分 十 进 制 数 IPv4 地 址 串 一 直 相 当 随 意 : 允许 由 小 
数 点 分 隔 的 1 一 4 个 数 , 也 允许 由 一 个 前 导 的 0x 来 指定 一 个 十 六 进 制 数 , 还 允许 由 一 个 前 导 的 0 来 指定 
一 个 八进制 数 。( 尝试 运行 Lelnet 0xe 来 检验 一 下 这 些 特性 .) inet_pcon 函 数 对 IPv4 地 址 的 要 求 却 
严格 得 多 ， 明 确 要 求 用 三 个 小 数 点 来 分 隔 四 个 在 0 一 255 之 间 的 十 进 制 数 。 当 指定 地 址 族 为 AF_INET6 
时 ，inet_pton 不 允许 指定 点 分 十 进 制 数 地 址 ， 不 过 有 人 可 能 争辩 说 应 该 允许 ， 返 回 值 就 是 对 应 这 
个 点 分 十 进 制 数 串 的 IPv4 映 射 的 IPv6 地 址 《〈 见 图 A-10》。 
试 写 一 个 名 为 inet_pton_loose 的 函数 ， 它 能 处 理 如 下 情形 ， 如 果 地 址 族 为 AF_TNET 且 inet_pton 
返回 0， 那 就 调用 inet_aton 看 是 否 成 功 ; 类 似 地 ， 如 果 地 址 族 为 AF_INET6 且 inet_pton 返 回 0， 那 
就 调用 inet_aton 看 是 否 成 功 ， 若 成 功 则 返回 其 IPv4 映 射 的 IPv6 地 址 。 





基本 TCP 套 接 字 编 程 








4.1 概述 

本 章 讲解 编写 一 个 完整 的 TCP 客 户 / 服 务 器 程序 所 需要 的 基本 套 接 字 函 数 。 讲 解 完 即将 使 用 
的 所 有 基本 套 接 字 函 数 之 后 ， 我 们 就 在 下 一 章 中 开发 这 个 客户 /服务 器 程序 。 我 们 将 围绕 该 客户 
/服务 器 程序 展开 本 书 ， 并 多 次 对 它 加 以 改进 (图 1-12 和 图 1-13)。 

我 们 还 讲解 并 发 服务 器 ， 它 是 在 同时 有 大 量 的 客户 连接 到 同一 服务 器 上 时 用 于 提供 并 发 性 
的 一 种 常用 Unix 技 术 。 每 个 客户 连接 都 迫使 服务 器 为 它 派生 〈fork) 一 个 新 的 进程 。 本 章 中 我 
们 只 考虑 使 用 fork 实 施 的 每 客户 单 进程 模型 ， 然 而 当 在 第 26 章 讨论 线程 时 ， 我 们 将 考虑 称 为 每 
客户 单线 程 的 另外 一 种 模型 。 

图 4-1 给 出 了 在 一 对 TCP 客 户 与 服务 器 进程 之 间 发 生 的 一 些 典 型 事件 的 时 间 表 。 服 务 器 首先 
启动 ， 稍 后 某 个 时 刻 客户 启动 ， 它 试图 连接 到 服务 器 。 我 们 假设 客户 给 服务 器 发 送 一 个 请 求 ， 
服务 器 处 理 该 请 求 ， 并 且 给 客户 发 回 一 个 响应 。 这 个 过 程 一 直 持续 下 去 ， 直 到 客户 关闭 连接 的 
客户 端 ， 从 而 给 服务 器 发 送 一 个 EOF (文件 结束 ) 通知 为 止 。 服 务 器 接着 也 关闭 连接 的 服务 器 
端 ， 然 后 结束 运行 或 者 等 待 新 的 客户 连接 。 








ee i 


4.2 socket 函数 





为 了 执行 网 络 WO， 一 个 进程 必须 做 的 第 一 件 事情 就 是 调用 socket 函 数 ， 指 定期 望 的 通信 
协议 类 型 〈 使 用 IPv4 的 TCP、 使 用 IPv6 的 UDP、Unix 域 字 节 流 协议 等 )。 


#include «sys/socket.h» 
int socket(int family, int type, int protocol); 


返回 : 若 成 功 则 为 非 负 描 述 符 ， 若 出 错 则 为 -1 


其 中 famiby 参 数 指明 协议 族 ， 它 是 图 4-2 中 所 示 的 菜 个 常 值 。 该 参数 也 往往 被 称 为 协议 域 。 type 
参数 指明 套 接 字 类 型 ， 它 是 图 4-3 中 所 示 的 某 个 常 值 。protocol 参 数 应 设 为 图 4-4 所 示 的 某 个 协议 

类 型 常 值 ， 或 者 设 为 0%， 以 选择 所 给 定 famijy 和 type 组 合 的 系统 默认 值 。 
并 非 所 有 套 接 字 family 与 type 的 组 合 都 是 有 效 的 ,图 4-5 给 出 了 一 些 有 效 的 组 合 和 对 应 的 真正 
协议 。 其 中 标 为 “是 ”的 项 也 是 有 效 的 ， 但 还 没有 找到 便捷 的 缩 略 词 。 而 空白 项 则 是 无 效 组 合 。 
你 可 能 还 会 碰 到 作为 socket 函数 第 一 个 参数 的 相应 的 PF_xxx 常 值 ， 我 们 在 本 节 末 讲述 。 
你 也 许 会 碰 到 AF_LOCAL (POSIX 名 称 ) 被 代 之 为 AF_UNIX ( 历史 上 的 Unix 域 名 称 ) ， 在 

第 15 章 中 我 们 再 做 详细 说 明 . 

套数 family 和 type 还 有 其 他 值 ， 例 如 4.4BSD 支 持 的 family 参 数值 还 有 AF_NS (Xerox NSH 
议 ， 常 称 为 XNS ) 和 AF_ISO ( OSI 协议 ) ， 不 过 现在 很 少 有 人 使 用 这 些 协议 。Xerox NS 协议 
和 OSI 协 议 都 实现 了 对 SOCK_SEQPACKET 这 个 type 参 数值 的 支持 ， 我 们 将 在 9.2 节 讲解 该 值 在 
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SCTP 中 的 使 用 。 然 而 TCP 是 一 个 字 节 流 协 议 ， 仅 支持 SOCK_STREAM 套 接 字 . 
Linux 支 持 一 个 新 的 套 接 字 类 型 SOCK_PACKET， 它 与 图 2-1 中 的 BPF 和 DLPI 类 似 ， 支 持 对 
数据 链 路 的 访问 ， 具 体 将 在 第 29 章 中 叙述 。 
密 钥 套 接 字 AF_KEY 比 较 新 ， 用 于 支持 基于 加 密 的 安全 性 。 跟 路 由 套 接 字 (AF ROUTE) 
是 内 核 中 路 由 表 的 接口 这 种 方式 类 似 ， 密 钥 套 接 字 是 与 内 核 中 密 钥 表 的 接口 。 密 钥 套 接 字 在 
第 19 章 中 讲解 . 


TCP 服 务 器 


bind() 


TCP 客 户 一 直 阻塞 到 


eris 








众所周知 端口 




















(TCP 三 路 握手 ) 


数据 ( 请 求 ) 





图 4-1 基本 TCP 客 户 /服务 器 程序 的 套 接 字 函 数 


AF_INET IPv4 协 议 
AF_INET6 IPv6 协 议 


AF. LOCAL Unix 域 协议 〈 见 第 15 章 ) 
AF ROUTE BHfERR-E CALSE1830 
AF KEY 密 钥 套 接 字 ( 见 第 19 章 》 


图 4-2 socket MM tt family s (A 





4.2 socket 函数 79 


字 节 流 套 接 字 


数据 报 套 接 字 
有 序 分 组 套 接 字 
原始 套 接 字 


图 4-3 ”socket 函数 的 tpe 常 值 
protocol 说 — 8l 
IPPROTO CP TCP 传 输 协 议 
IPPROTO_UDP UDP 传输 协议 
SCTP 传 输 协议 


图 4-4 socket 函数 AF_INET 或 aF_INET6 的 protocoy 常 值 
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图 4-5 ”socket 函 数 中 famiy 和 type 参 数 的 组 合 


socket 函 数 在 成 功 时 返回 一 个 小 的 非 负 整数 值 ， 它 与 文件 描述 符 类 似 , 我 们 把 它 称 为 套 接 
FREA (socket descriptor)， 简 称 sockfd。 为 了 得 到 这 个 套 接 字 描 述 符 ， 我 们 只 是 指定 了 协议 
族 (IPv4、IPv6 或 Unix) 和 套 接 字 类 型 〈 字 节 流 、 数 据 报 或 原始 套 接 字 )。 我 们 并 没有 指定 本 地 
协议 地 址 或 远程 协议 地 址 。 


对 比 AF. xxx 和 PF xxx 


AF 前缀 表示 地 址 族 ，PF_ 前 绷 表 示 协 议 族 。 历 史上 曾 有 这 样 的 想法 : 单个 协议 族 可 以 支持 
多 个 地 址 族 ，PF_ 值 用 来 创建 套 接 字 ， 而 AF_ 值 用 于 套 接 字 地 址 结构 。 但 实际 上 ， 支 持 多 个 地 址 
族 的 协议 族 从 来 就 未 实现 过 ， 而 且 头 文件 <sys/socket .h> 中 为 一 给 定 协议 定义 的 PF_ 值 总 是 与 
此 协议 的 AF_ 值 相等 。 尽 管 这 种 相等 关系 并 不 一 定 永远 成 立 ， 但 车 有 人 试图 给 已 有 的 协议 改变 
这 种 约定 ， 则 许多 现存 代码 都 将 崩溃 。 为 与 现存 代码 保持 一 致 ， 本 书 中 我 们 仅 使 用 AF_ 常 值 ， 
RE (ERE) 在 调用 socket 时 我 们 可 能 会 碰 到 PF_ 值 。 


查看 BSD/OS 2.1 版 中 调用 socket 的 137 个 程序 ， 可 以 发 现 ， 有 143 个 调用 指定 AF_ 值 ， 仅 
有 8 个 调用 指定 PF_ 值 。 

从 历史 上 说 ，AF_ 前 组 与 PF_ 前 级 具有 相似 常 值 集 的 原因 要 追溯 到 4.1cBSD [ Lanciani 
1996 ] 和 上 比 我 们 正 讲述 的 ( 随 4.2BSD 出 现 的 ) socket HAk-F2EM—AMA. socket Hth 
4.1cBSD 版 本 采用 了 四 个 参数 ， 其 中 有 一 个 是 指向 sockproto 结 构 的 指针 。 该 结构 的 第 一 个 
成 员 名 为 sp_family， 它 的 值 是 某 个 PEF_ 值 ; 第 二 个 成 员 即 sp_protocol 是 一 个 协议 号 ， 与 
现行 socket 函 数 的 第 三 个 参数 相似 。 指 定 协议 族 的 唯一 方法 就 是 指定 该 结构 ， 因 此 ， 在 这 个 
早期 系统 中 ，PF_ 值 用 来 在 sockproto 结 构 中 指定 协议 族 的 结构 标签 ,而 AF_ 值 用 来 在 套 接 字 
地 址 结构 中 指定 地 址 族 的 结构 标签 。 4.4BSD 中 仍 有 sockproto 结 构 (TCPv2 第 626 ~ 627 页 ) , 
但 仅 由 内 核 在 内 部 使 用 。 在 最 初 的 定义 中 ,对 sp_family 成 员 有 “protocol family” (协议 族 ) 
的 注释 ， 在 4.4BSD 源 代码 中 已 改 为 “address family" ( 地址 族 ) T. 
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让 人 更 弄 不 清 AF_ 常 值 和 PF_ 常 值 之 区 别 的 是 ， 其 中 有 成 员 可 与 socket 函 数 的 第 一 个 参 
数 作 比 较 的 Berkeley 内 核 数据 结构 ( domain 结 构 的 dom_family 成 员 ，TCPv2 第 187 页 ) 有 这 
样 的 注释 : 它 含 有 AF_ 值 .尽管 如 此 , 内 核 中 有 些 domain 结 构 被 初始 化 为 相应 的 AF_ 值 (TCPv2 
第 192 页 ) ， 而 其 他 domain 结 构 则 被 初始 化 成 PF_ 值 (TCPv2 第 646 页 和 TCPv3 第 229 页 ) . 

作为 另 一 个 历史 注解 ，4.2BSD 中 socket 函 数 的 手册 页 面 ( 编写 于 1983 年 7 月 ) 将 该 函数 
的 第 一 个 参数 称 为 af， 并 把 它 的 可 能 取 值 作为 AF_ 常 值 列 出 。 

最 后 ， 我 们 指出 POSIX 规 范 指定 socket 函 数 的 第 一 个 参数 为 PEF_ 值 ， 而 AF_ 值 用 于 套 接 
字 地 址 结构 。 然而 它 在 addrinfo 结 构 (11.6 节 ) 中 却 只 定义 了 一 个 族 值 ， 既 用 于 调用 socket 
函数 ， 也 用 于 套 接 字 地 址 结构 中 ! 
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TCP 客 户 用 connect 函 数 来 建立 与 TCP 服 务 器 的 连接 。 


#include <sys/socket.h> 
int connect (int sockfd, const struct sockaddr *servaddr, socklen t addrlen); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 


sockfd 是 由 socket 函 数 返 回 的 套 接 字 描述 符 ， 第 二 个 、 第 三 个 参数 分 别 是 一 个 指向 套 接 字 
地 址 结构 的 指针 和 该 结构 的 大 小 ， 如 3.3 节 所 述 。 套 接 字 地 址 结构 必须 含有 服务 器 的 IP 地 址 和 端 
口号 。 我 们 已 在 图 1-5 中 见 过 本 函数 的 一 个 例子 。 

客户 在 调用 函数 connect 前 不 必 非 得 调用 bina 函 数 (我 们 在 下 一 节 介 绍 该 函数 )， 因 为 如 果 
需要 的 话 ， 内 核 会 确定 源 耳 地 址 ， 并 选择 一 个 临时 端口 作为 源 端口 。 

如 果 是 TCP 套 接 字 ， 调 用 connect 函 数 将 激发 TCP 的 三 路 握手 过 程 〈2.6 节 )， 而 且 仅 在 连接 
建立 成 功 或 出 错时 才 返 回 ， 其 中 出 错 返回 可 能 有 以 下 几 种 情况 。 

(D 车 TCP 客 户 没 有 收 到 SYN 分 节 的 响应 , 则 返回 ETIMEDOUT 错 误 。 举例 来 说 , 调用 connect 
函数 时 ，4.4BSD 内 核发 送 一 个 SYN， 若 无 响应 则 等 待 6s 后 青 发 送 一 个 ， 若 仍 无 响应 则 等 待 24s 
后 再 发 送 一 个 《TCPv2 第 828 页 )。 若 总 共 等 了 75s 后 仍 未 收 到 响应 则 返回 本 错误 。 

有 些 系 统 提供 对 超时 值 的 管理 性 控制 ， 见 TCPv1 的 附录 E。 

(2) 若 对 客户 的 SYN 的 响应 是 RST〈 表 示 复 位 )， 则 表明 该 服务 器 主机 在 我 们 指定 的 端口 上 
没有 进程 在 等 待 与 之 连接 〈 例 如 服务 器 进程 也 许 没 在 运行 )。 这 是 一 种 硬 错误 Chard error)， 客 
户 一 接收 到 RST 就 马上 返回 ECONNREFUSED 错 误 。 

RST 是 TCP 在 发 生 错 误 时 发 送 的 一 种 TCP 分 节 。 产生 RST 的 三 个 条 件 是 : 目的 地 为 某 端口 的 
SYN 到 达 ， 然 而 该 端口 上 没有 正在 览 听 的 服务 器 (如 前 所 述 );， TCP 想 取消 一 个 已 有 连接 ; TCP 
接收 到 一 个 根本 不 存在 的 连接 上 的 分 节 。(TCPv1 第 246 一 250 页 有 更 详细 的 信息 。) 

(3) 车 客户 发 出 的 SYN 在 中 间 的 某 个 路 由 器 上 引发 了 一 个 “destination unreachable”( 目 的 地 
不 可 达 ) ICMP 错 误 ， 则 认为 是 一 种 软 错误 (soft error)。 客 户主 机 内 核 保 存 该 消息 ， 并 按 第 一 
种 情况 中 所 述 的 时 间 间 隔 继 续 发 送 SYN。 若 在 某 个 规定 的 时 间 (4.4BSD 规 定 75s) 后 仍 未 收 到 响 
应 ， 则 把 保存 的 消息 〈 即 ICMP 错 误 ) 作为 EHOSTUNREACH 或 ENETUNREACH 错 误 返 回 给 进程 。 以 
下 两 种 情形 也 是 有 可 能 的 : 一 是 按照 本 地 系统 的 转发 表 ， 根 本 没有 到 达 远 程 系统 的 路 径 ， 二 是 
connect 调 用 根本 不 等 待 就 返回 。 


许多 早期 系统 ( 璧 如 4.2BSD ) 在 收 到 “目的 地 不 可 达 ”ICMP 错 误 时 会 不 正确 地 放弃 建 
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立 连 接 的 尝试 。 这 种 做 法 不 正确 是 因为 ICMP 错 误 可 能 指示 某 个 暂时 状态 。 壁 如 说 ， 它 可 能 是 
终究 可 以 修复 的 某 个 路 由 问题 引起 的 。 
注意 ， 即 使 ICMP 错 误 指示 目的 网 络 不 可 达 ， 图 A-15 中 也 没有 列 出 ENETUNREACH。 网 络 
不 可 达 的 错误 被 认为 已 过 时 ， 应 用 进程 应 该 把 ENETUNREACH 和 EHOSTUNREACH 作 为 相同 的 
错误 对 待 。 
我 们 可 以 用 图 1-$ 所 示 的 简单 客户 程序 来 查看 这 些 不 同 的 出 错 情 况 。 首 先 指 定 本 地 主机 
(127.0.0.1)， 它 正在 运行 对 应 的 时 间 获 取 服 务 器 程序 ， 我 们 观察 正常 的 输出 : 


solaris $ daytimetcpcli 127.0.0.1 
Sun Jul 27 22:01:51 2003 


为 了 查看 返回 响应 的 另 一 种 格式 ， 我 们 指定 另外 一 个 主机 的 IP 地 址 〈 本 例 中 为 那个 HP-UX 
主机 的 IP 地 址 ): 


Solaris $ daytimetcpcli 192.6.38.100 
Sun Jul 27 22:04:59 PDT 2003 


我 们 接着 指定 本 地 子 网 〈192.168.1/24) 上 其 主机 ID (100) 并 不 存在 的 一 个 IP 地 址 ， 也 就 
是 说 本 地 子 网 上 没有 一 个 主机 ID 为 100 的 主机 ， 这 样 当 客户 主机 发 出 ARP 请 求 ( 要 求 那个 不 存在 
的 主机 响应 以 其 硬件 地 址 ) 时 ， 它 将 永远 收 不 到 ARP 响 应 : 


solaris $ daytimetcpcli 192.168.1.100 
connect error: Connection timed out 


我 们 等 到 connect 函数 超时 后 (对 于 Solaris 9292942) 80. 才 得 到 该 错误 。 留 意 我 们 的 
err_sys 函 数 以 直观 可 读 的 字符 串 消息 显示 了 ETIMEDOUT 错 误 的 含义 。 

下 一 个 例子 中 我 们 指定 一 个 没有 运行 时 间 获 取 服 务 器 程序 的 主机 (其 实 是 一 个 本 地 路 由 
器 )。 


solaris $ daytimetcpcli 192.168.1.5 
connect error: Connection refused 


服务 器 主机 立刻 响应 以 一 个 RST 分 节 。 
最 后 一 个 例子 中 我 们 指定 一 个 因特网 中 不 可 到 达 的 下 地 址 。 如 果 我 们 用 ccpdump 观 察 分 组 
的 情况 ， 就 会 发 现 6 跳 以 远 的 路 由 器 返回 了 主机 不 可 达 的 ICMP 错 误 。 


Solaris $ daytimetcpcli 192.3.4.5 
connect error: No route to host 


跟 ETIMEDOUT 错 误 一 样 ， 本 例 中 的 connect 也 在 等 待 规 定 的 一 段 时 间 之 后 才 返 回 EHOSTUNREACH 
错误 。 

按照 TCP 状 态 转换 图 (图 2-4)，connect 函 数 导 致 当前 套 接 字 从 CLOSED 状 态 (该 套 接 字 自 
M Bi socket 函数 创建 以 来 一 直 所 处 的 状态 ) 转移 到 SYN_SENT 状 态 ， 若 成 功 则 再 转移 到 
ESTABLISHED 状 态 。 若 connect 失 败 则 该 套 接 字 不 再 可 用 ， 必 须 关 闭 ， 我 们 不 能 对 这 样 的 套 接 
字 再 次 调用 connect 函 数 。 在 图 11-10 中 我 们 将 看 到 ， 当 循环 调用 函数 connect 为 给 定 主机 尝试 
各 个 IP 地 址 直到 有 一 个 成 功 时 ， 在 每 次 connect 失 败 后 ， 都 必须 close 当 前 的 套 接 字 描述 符 并 重 
新 调用 socket。 
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bind 函 数 把 一 个 本 地 协议 地 址 赋予 一 个 套 接 字 。 对 于 网 际 网 协议 ， 协 议 地 址 是 32 位 的 IPv4 
地 址 或 128 位 的 IPv6 地 址 与 16 位 的 TCP 或 UDP 端口 号 的 组 合 。 
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#include «sys/socket.h» 
int bind(int sockfd, const struct sockaddr *myaddr, socklen t addrlen); 





返回 ， 郑成功 则 为 0， 若 出 错 则 为 -1 


历史 上 讲述 bind 函 数 的 手册 页 面 曾 说 “binad assigns a name to an unnamed socket (bind 
函数 为 一 个 无 名 的 套 接 字 命 名 ) ”。 使 用 “name” CE T) 一 词 易于 让 人 混淆 ， 因 为 它 具有 
诸如 foo .bar.com 之 类 域名 ( 5113€ ) 的 涵义 。bina 函 数 其 实 与 名 字 没 有 任何 关系 。 它 只 是 
把 一 个 协议 地 址 赋予 一 个 套 接 字 ， 至 于 协议 地 址 的 含义 则 取决 于 协议 本 身 。” 

第 二 个 参数 是 一 个 指向 特定 于 协议 的 地 址 结构 的 指针 ， 第 三 个 参数 是 该 地 址 结构 的 长 度 。 
对 于 TCP， 调 用 bina 函 数 可 以 指定 一 个 端口 号 ， 或 指定 一 个 JP 地址， 也 可 以 两 者 都 指定 ， 还 可 
以 都 不 指定 。 

e 服务 器 在 启动 时 捆绑 它们 的 众所周知 端口 ,我 们 在 图 1-9 中 已 看 到 了 。 如 果 一 个 TCP 客 户 

或 服务 器 未 曾 调用 binq 捆 绑 一 个 端口 , 当 调 用 connect 或 1isten 时 ,内 核 就 要 为 相应 的 
套 接 字 选 择 一 个 临时 端口 。 让 内 核 来 选择 临时 端口 对 于 TCP 客 户 来 说 是 正常 的 ， 除 非 应 
用 需要 一 个 预 留 端口 (图 2-10); 然而 对 于 TCP 服 务 器 来 说 却 极为 罕见 ， 因为 服务 器 是 通 
过 它们 的 众所周知 端口 被 大 家 认识 的 。 
这 个 规则 的 例外 是 远程 过 程 调用 (Remote Procedure Call, RPC) 服务 器 。 它 们 通常 就 
由 内 核 为 它们 的 监听 套 接 字 选 择 一 个 临时 端口 ， 而 该 端口 随后 通过 RPC 端 口 映 射 器 进行 注册 。 
客户 在 connect 这 些 服务 器 之 前 ， 必 须 与 端口 映射 器 联系 以 获取 它们 的 临时 端口 。 这 种 情况 
也 适用 于 使 用 UDP 的 RPC 服 务 器 . 

e 进程 可 以 把 一 个 特定 的 了 地 址 搁 绑 到 它 的 套 接 字 上 ， 不 过 这 个 中 地 址 必须 属于 其 所 在 主 
机 的 网 络 接口 之 一 。 对 于 TCP 客 户 ， 这 就 为 在 该 套 接 字 上 发 送 的 了 数据 报 指派 了 源 耻 地 
址 。 对 于 TCP 服 务 器 ， 这 就 限定 该 套 接 字 只 接收 那些 目的 地 为 这 个 人 P 地 址 的 客户 连接 。 
TCP 客 户 通 常 不 把 忆 地 址 捆绑 到 它 的 套 接 字 上 。 当 连接 套 接 字 时 ， 内 核 将 根据 所 用 外 出 网 络 
接口 来 选择 源 下 地 址 ， 而 所 用 外 出 接口 则 取决 于 到 达 服 务 器 所 需 的 路 径 〈TCPv2 第 737 页 )。 
如 果 TCP 服 务 器 没有 把 IP 地 址 捆绑 到 它 的 套 接 字 上 ， 内 核 就 把 客户 发 送 的 SYN 的 目的 IP 
地 址 作为 服务 器 的 源 IP 地 址 (TCPv2 第 943 页 )。 

正如 我 们 所 说 ， 调 用 bind 可 以 指定 IP 地 址 或 端口 ， 可 以 两 者 都 指定 ， 也 可 以 都 不 指定 。 图 
4-6 汇 总 了 如 何 根 据 预 期 的 结果 ， 设 置 sin_addr 和 sin_port 或 者 sin6_addr 和 sin6_port 的 值 。 


内 核 选择 耳 地 址 和 端口 


内 核 选择 下 地 址 ， 进 程 指定 端口 
进程 指定 耳 地 址 ， 内 核 选 择 端 口 
进程 指定 下 地 址 和 端口 





图 4-6 ”给 binad 函 数 指定 要 捆绑 的 人 P 地 址 和 /或 端口 号 产生 的 结果 


(D 捆绑 (binding) 操作 涉及 三 个 对 象 ， 套 接 字 〔 在 XTI API 中 为 端点 )、 地 址 及 端口 。 其 中 套 接 字 是 捆绑 的 主体 ， 
地 址 和 端 只 是 揭 绑 在 套 接 字 上 的 客体 。 由 于 涉及 对 象 较 多 ， 我 们 先 在 这 里 澄清 各 种 说 法 :〈1?“ 捆 绑 地 址 A 和 / 
或 端口 P 到 套 接 字 S”。 同 义 说 法 还 有 :“ 把 地 址 A 和 /或 端口 P 捆 绑 到 套 接 字 S”,“ 给 套 接 字 S 揪 绑 地 址 A 和 /或 端口 
P”, 3, (2) “Fem OP (地址 A) RARA OHOP)”. He (bound) 表示 捆绑 成 功 后 的 状态 ， 它 的 各 
种 说 法 如 下 ; 〈1)“ 绑 定 地 址 A 和 /或 端口 P 的 套 接 字 ”。(2)“ 套 接 字 S 上 绑 定 的 地 址 或 端口 ” 〈3)“ 已 绑 定 的 地 
址 或 端口 >。 也 就 是 说 该 地 址 或 端口 已 为 某 个 套 接 字 所 用 。(4?“ 跟 端口 P〈 地 址 A) 一 块 绑 定 的 地 址 《端口 )”。 
(5)“ 套 接 字 S 已 绑 定 "。 相 反 的 说 法 是 “ 套 接 字 S 未 绑 定 ”。 
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如 果 指 定 端口 号 为 0， 那 么 内 核 就 在 bina 被 调用 时 选择 一 个 临时 端口 。 然 而 如 果 指定 IP 地 
址 为 通 配 地 址 ， 那 么 内 核 将 等 到 套 接 字 已 连接 (TCP) 或 已 在 套 接 字 上 发 出 数据 报 CUDPO 时 
才 选 择 一 个 本 地 IP 地 址 。 

对 于 IPv4 来 说 ， 通 配 地 址 由 常 值 INADDR_ANY 来 指定 ， 其 值 一 般 为 0。 它 告知 内 核 去 选择 IP 
地 址 。 我 们 已 在 图 1-9 中 随 如 下 赋值 语句 看 到 过 它 的 使 用 : 


struct sockaddr in servaddr; 
servaddr.sin_addr.s_addr = htonl(INADDR ANY); /* wildcard */ 


如 此 赋值 对 IPv4 是 可 行 的， 因为 其 耳 地 址 是 一 个 32 位 的 值 ， 可 以 用 一 个 简单 的 数字 常 值 表 
示 〔 本 例 中 为 0)， 对 于 IPv6， 我 们 就 不 能 这 么 做 了 ， 因 为 128 位 的 IPv6 地 址 是 存放 在 一 个 结构 中 
的 。( 在 C 语 言 中 ， 赋 值 语句 的 右边 无 法 表示 常 值 结构 。〉 为 了 解决 这 个 问题 ， 我 们 改写 为 : 


struct sockaddr in6 serv; 
serv.sin6 addr = in6addr any; /* wildcard */ 


系统 预先 分 配 in6adar_any 变 量 并 将 其 初始 化 为 常 值 IN6ADDR_aANY_INIT 。 头 文件 
<netinet/in.h> 中 含有 in6addr_any 的 extern 声 明 。 

无 论 是 网 络 字 节 序 还 是 主机 字 节 序 ，INADDR_ANY 的 值 (AO) 都 一 样 ， 因 此 使 用 hton1l 并 
非 必需 。 不 过 既然 头 文 件 <=netinet /in.h> 中 定义 的 所 有 INADDR_ 常 值 都 是 按照 主机 字 节 序 定 义 
的 ， 我 们 应 该 对 任何 这 些 常 值 都 使 用 hton1l 。 

如 果 让 内 核 来 为 套 接 字 选 择 一 个 临时 端口 号 ， 那 么 必须 注意 ， 函 数 binqa 并 不 返回 所 选择 的 
值 。 实 际 上 ， 由 于 bina 函 数 的 第 二 个 参数 有 const 限 定 词 ， 它 无 法 返回 所 选 之 值 。 为 了 得 到 内 
核 所 选择 的 这 个 临时 端口 值 ， 必 须 调用 函数 get sockname 来 返回 协议 地 址 。 

进程 捆绑 非 通 配 耳 地 址 到 套 接 字 上 的 常见 例子 是 在 为 多 个 组 织 提供 Web 服 务 器 的 主机 上 
(CTCPv3 的 14.2 节 )。 首先, 每 个 组 织 都 得 有 各 自 的 域名 , 譬如 这 样 的 形式 : www.organization.com. 
其 次 ， 每 个 组 织 的 域名 都 映射 到 不 同 的 下 地 址 ， 不 过 通常 仍 在 同一 个 子 网 上 。 举 例 来 说 ， 如 果 
子 网 是 198.69.10， 那 么 第 一 个 组 织 的 中 地 址 可 以 是 198.69.10.128， 第 二 个 组 织 的 可 以 是 
198.69.10.129， 等 等 。 然 后 ， 把 所 有 这 些 IP 地 址 都 定义 成 单个 网 络 接 口 的 别名 〈 壁 如 在 4.4BSD 
系统 上 就 使 用 ifconfig 命 令 的 alias 选 项 来 定义 ), 这 么 一 来 ,IP 层 将 接收 所 有 目的 地 为 任何 一 
个 别名 地 址 的 外 来 数据 报 。 最 后 ， 为 每 个 组 织 启动 一 个 HTTP 服 务 器 的 副本 ， 每 个 副本 仅仅 捆绑 
相应 组 织 的 了 下地 址 。 


替换 上 述 方法 的 另 一 种 技术 是 运行 捆绑 通 配 地 址 的 单个 服务 器 。 当 一 个 连接 到 达 时 ， 服 
务 器 调用 getsockname 函 数 获 取 来 自 客 户 的 目的 了 地 址 ， 它 在 我 们 的 上 述 讨论 中 可 以 是 
198.69.10.128、198.69.10.129， 等 等 。 服 务 器 然后 根据 这 个 客户 连接 所 发 往 的 IP 地 址 来 处 理 客 
户 的 请 求 。 

捆绑 非 通 配 卫 地 址 的 好 处 是 : 把 一 个 给 定 的 目的 IP 地 址 解 复 用 到 一 个 给 定 的 服务 器 进程 
是 由 内 核 (而 不 是 服务 器 进程 ) 完成 的 。 

我 们 必须 仔细 区 别 一 个 分 组 的 到 达 接 口 和 该 分 组 的 目的 耳 地址 .。 “我 们 将 在 8.8 节 讨论 弱 
端 系统 模型 和 强 端 系统 模型 。 大 多 数 实现 都 采用 前 者 ， 意 味 着 一 个 分 组 只 要 其 目的 中 地 址 能 


O 本 书 往 后 频繁 使 用 到 达 (arriving) 和 接收 (received) 这 两 个 修饰 词 , 它们 具有 相同 的 含义 ， 只 是 视角 不 同 而 已 。 
链 如 说 一 个 分 组 的 到 达 接 口 和 接收 接口 指 的 是 同一 个 接口 ， 前 者 在 接收 主机 以 外 看 待 这 个 接口 ， 后 者 在 接收 主 
机 以 内 看 待 这 个 接口 。 与 这 两 个 修饰 词 同 义 或 近 义 的 还 有 外 来 〈incoming 或 inbound)， 反 义 的 有 外 出 (outgoing 
或 outbound) 和 发 送 〈sending 或 sent)。 其 中 received 和 sent 根 据 情况 也 译 为 所 接收 的 和 所 发 送 的 ， 或 为 《所 ) 收 
取 的 和 《所 ) 送出 的 。 一 一 译 者 注 
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够 标识 目的 主机 的 某 个 网 络 接口 就 行 ， 不 必 一 定 是 它 的 到 达 接 口 。 (这 里 假设 目的 主机 是 多 
宿主 机 。 ) 捆绑 非 通 配 耳 地址 只 是 限定 根据 目的 IP 地 址 来 确定 递送 到 套 接 字 的 数据 报 ， 而 对 
于 到 达 接 口 则 未 做 任何 限制 ， 除 非 主机 采用 强 端 系统 模型 。 


从 bina 函 数 返回 的 一 个 常见 错误 是 EaADDRINUSE (“Address already in use”, 地 址 已 使 用 )。 
到 7.5 节 讨论 so_REUSEADDR 和 So_REUSEPORT 这 两 个 套 接 字 选 项 时 我 们 再 详细 说 明 。 
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listen 函 数 仅 由 TCP 服 务 器 调用 ， 它 做 两 件 事情 。 


(1) 当 socket 函 数 创建 一 个 套 接 字 时 ， 它 被 假设 为 一 个 主动 套 接 字 ， 也 就 是 说 ， 它 是 一 个 
将 调用 connect 发 起 连接 的 客户 套 接 字 。1listen 函 数 把 一 个 未 连接 的 套 接 字 转 换 成 一 个 被 动 套 
接 字 ， 指 示 内 核 应 接受 指向 该 套 接 字 的 连接 请 求 。 根 据 TCP 状 态 转换 图 〈 图 2-4)， 调 用 listen 
导致 套 接 字 从 CLOSED 状 态 转换 到 LISTEN 状 态 。 

(2) 本 函数 的 第 二 个 参数 规定 了 内 核 应 该 为 相应 套 接 字 排队 的 最 大 连接 个 数 。 


#include «sys/socket.h» 
int listen(int sockfd, int backlog); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 


本 函数 通常 应 该 在 调用 socket 和 bindq 这 两 个 函数 之 后 ， 并 在 调用 accept 函 数 之 前 调用 。 

为 了 理解 其 中 的 backiog 参 数 ， 我 们 必须 认识 到 内 核 为 任何 一 个 给 定 的 监听 套 接 字 维护 两 个 
队列 : 

(1) 未 完成 连接 队列 Cincomplete connection queue)， 每 个 这 样 的 SYN 分 节 对 应 其 中 一 项 : 
已 由 某 个 客户 发 出 并 到 达 服 务 器 ， 而 服务 器 正在 等 待 完成 相应 的 TCP 三 路 握手 过程。 这 些 套 接 
字 处 于 SYN_RCVD 状 态 (图 2-4)。 

(2) 已 完成 连接 队列 (completed connection queue)， 每 个 已 完成 TCP 三 路 握手 过 程 的 客户 对 
应 其 中 一 项 。 这 些 套 接 字 处 于 ESTABLISHED 状 态 ( 图 2-4)。 

图 4-7 描 绘 了 监听 套 接 字 的 这 两 个 队列 。 
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到 达 的 SYN 分 节 


} 已 完成 连接 队列 
(ESTABLISHED 状 态 ) 


未 完成 连接 队列 
(SYN_RCVD 状 态 ) 


图 4-7 TCP 为 监听 套 接 字 维护 的 两 个 队列 
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每 当 在 未 完成 连接 队列 中 创建 一 项 时 ,来 自 监听 套 接 字 的 参数 就 复制 到 即将 建立 的 连接 中 。 
连接 的 创建 机 制 是 完全 自动 的 , 无 需 服务 器 进程 插手 。 图 4-8 展 示 了 用 这 两 个 队列 建立 连接 时 所 
交换 的 分 组 。 


客户 服务 器 


connect 调 用 


SYN] 
zl ano 在 未 完成 队列 建立 条 日 


RTT 
connect 返 回 


该 条 目 从 未 完成 队 
列 转移 至 已 完成 队 
列 ，accept 能 够 返回 


图 4-8 TCP 三 路 握手 和 监听 套 接 字 的 两 个 队列 


当 来 自 客 户 的 SYN 到 达 时 ，TCP 在 未 完成 连接 队列 中 创建 一 个 新 项 ， 然 后 响应 以 三 路 握手 
的 第 二 个 分 节 : 服务 器 的 SYN 响 应 ， 其 中 朱 带 对 客户 SYN 的 ACK (2.6 节 )。 这 一 项 一 直 保留 在 
未 完成 连接 队列 中 ， 直 到 三 路 握手 的 第 三 个 分 节 (客户 对 服务 器 SYN 的 ACK) 到 达 或 者 该 项 超 
时 为 止 。( 源 自 Berkeley 的 实现 为 这 些 未 完成 连接 的 项 设置 的 超时 值 为 73 s) 如 果 三 路 握手 正常 
完成 ， 该 项 就 从 未 完成 连接 队列 移 到 已 完成 连接 队列 的 队 尾 。 当 进程 调用 accept 时 《该 函数 在 
下 一 节 讲 解 )， 已 完成 连接 队列 中 的 队 头 项 将 返回 给 进程 ， 或 者 如 果 该 队列 为 空 ， 那 么 进程 将 被 
投入 睡眠 ， 直 到 TCP 在 该 队列 中 放 入 一 项 才 唤 醒 它 。 
关于 这 两 个 队列 的 处 理 ， 以 下 几 点 需要 考虑 。 
e 1isten 畏 数 的 packlog 参 数 曾 被 规定 为 这 两 个 队列 总 和 的 最 大 值 。 
backlog 的 含义 从 未 有 过 正式 的 定义 , 4.2BSD 的 手册 页 面 宣 称 它 定义 的 是 : "the maximum 
length the queue of pending connections may grow to" ( 由 未 处 理 连接 构成 的 队列 可 能 增长 到 的 
最 大 长 度 ) 。 许多 手册 页 面 甚 至 POSIX 规 范 也 逐 字 复制 该 定义 ， 然 而 该 定义 并 未 解释 未 处 理 
连接 是 处 于 SYN_RCVD 状 态 的 连接 , 还 是 尚未 由 进程 接受 的 处 于 ESTABLISHED 状 态 的 连接 ， 
亦 或 两 者 尼 可 。 这 个 历史 性 的 定义 出 自 追 溯 到 4.2BSD 版 本 的 Berkeley 的 实现 ， 后 来 被 许多 其 
他 实现 复制 。 
e 源 自 Berkeley 的 实现 给 packiog 增 设 了 一 个 模糊 因子 (fudge factor): 把 它 乘 以 1.5 得 到 未 
处 理 队列 最 大 长 度 (TCPv1 第 257 页 和 TCPv2 第 462 页 )。 举 例 来 说 , 通常 指定 为 5 的 backlog 
值 实际 上 允许 最 多 有 8 项 在 排队 ， 如 图 4-10 所 示 。 
增设 该 模糊 因子 的 理由 已 无 可 考证 [Joy 1994] ， 但 是 如 果 我 们 把 backiog 看 成 是 内 核能 
为 某 套 接 字 排 队 的 最 大 已 完成 连接 数目 ([ Borman 1997c ] , 稍 后 讨论 ) ， 那 么 增加 模糊 因子 
的 理由 就 是 把 队列 中 的 未 完成 连接 也 计算 在 内 。 
e 不 要 把 backiog 定 义 为 0， 因 为 不 同 的 实现 对 此 有 不 同 的 解释 (图 4-10)。 如 果 你 不 想 让 任 
何 客户 连接 到 你 的 监听 套 接 字 上 ， 那 就 关 掉 该 监听 套 接 字 。 
e 在 三 路 握手 正常 完成 的 前 提 下 (也 就 是 说 没有 丢失 分 节 ， 从 而 没有 重 传 )， 未 完成 连接 
队列 中 的 任何 一 项 在 其 中 的 存留 时 间 就 是 一 个 RTT， 而 RTT 的 值 取决 于 特定 的 客户 与 服 
务 器 。TCPv3 的 14.4 节 指出 ， 对 于 一 个 Web 服 务 器 ， 许 多 客户 与 单个 服务 器 之 间 的 中 值 
RTT 为 187ms。( 既 然 出 现 一 些 大 值 可 能 显著 扭曲 均值 ， 对 于 该 统计 景 通常 使 用 中 值 . ) 
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e. 历来 沿用 的 样 例 代 码 总 是 给 出 值 为 5 的 backlog， 因 为 这 是 4.2BSD 支 持 的 最 大 值 。 这 个 值 
在 20 世 纪 80 年 代 是 足够 的 ， 当 时 繁忙 的 服务 器 一 天 也 就 处 理 几 百 个 连接 。 然 而 随 着 万 维 
网 (World Wide Web, WWW) 的 发 展 ， 繁 忙 的 服务 器 一 天 要 处 理 几 百 万 个 连接 ， 这 个 
偏 小 的 值 就 根本 不 够 了 〈TCPv3 第 187 一 192 页 )。 繁 忙 的 HTTP 服 务 器 必须 指定 一 个 大 得 
多 的 backiog 值 ， 而 且 较 新 的 内 核 必 须 支 持 较 大 的 packiog 值 。 


当前 的 许多 系统 允许 管理 员 修改 packiog 的 最 大 值 


e 问题 是 既然 aackiog 值 为 5 往往 不 够 ， 那 么 应 用 进程 应 该 指定 多 大 值 的 packiog 呢 ? 这 个 问 
题 不 好 回答 。 当 今 的 HTTP 服 务 器 指定 了 一 个 较 大 的 值 ， 但 是 如 果 这 个 指定 值 在 源 代码 
中 是 一 个 常 值 ， 那么 增长 其 大 小 需要 重新 编译 服务 器 程序 。 男 一 个 方法 是 设 定 一 个 默认 
值 ， 不 过 允许 通过 命令 行 选 项 或 环境 变量 履 写 该 默认 值 。 指 定 一 个 比 内 核能 够 支持 的 值 
还 要 大 的 backiog 也 是 可 接受 的 , 因为 内 核 应 该 悄然 把 所 指定 的 偏 大 值 截 成 自身 支持 的 最 
大 值 ， 而 不 返回 错误 (TCPv2 第 456 页 )。 

我 们 通过 修改 1isten 函 数 的 包 里 函数 就 能 够 提供 解决 本 问题 的 一 个 简单 办 法 。 图 4-9 给 
出 了 实际 的 代码 。 我 们 允许 环境 变量 LISTENQ 覆 写 由 调用 者 指定 的 值 。 








lib/wrapsock.c 
137 void 
138 Listen(int fd, int backlog) 
139 ( 
140 char *ptr; 
141 /*4can override 2nd argument with environment variable */ 
142 if ( (ptr = getenv("LISTENQ")) !- NULL) 
143 backlog = atoi(ptr); 
144 if (listen(fd, backlog) < 0) 
145 err_sys("listen error"); 
146 } 
NN —— lib/wrapsock.c 


图 4-9 FRPP Ae BERE backlog i Listen EE PR 


e 手册 和 书本 历来 声称 : 将 固定 数目 的 未 处 理 连 接 排 成 队列 是 为 了 处 理 服务 器 进程 在 相继 
的 accept 调 用 之 间 处 于 忙 状 态 的 情况 。 这 就 隐 含 着 如 此 意义 : 在 这 两 个 队列 中 ， 已 完 
成 队列 通常 应 该 比 未 完成 队列 有 更 多 的 项 。 繁 忙 的 Web 服 务 器 再 次 表明 这 是 不 对 的 。 指 
定 较 大 backiog 值 的 理由 在 于 : 随 着 客户 SYN 分 节 的 到 达 , 未 完成 连接 队列 中 的 项 数 可 能 
增长 ， 它 们 等 着 三 路 握手 的 完成 。 

© 当 一 个 客户 SYN 到 达 时 , 若 这 些 队 列 是 满 的 , TCP 就 忽略 该 分 节 (TCPv2 第 930 一 931 页 )， 
也 就 是 不 发 送 RST。 这 么 做 是 因为 : 这 种 情况 是 暂时 的 ， 客 户 TCP 将 重 发 SYN， 期 望 不 
久 就 能 在 这 些 队列 中 找到 可 用 空间 。 要 是 服务 器 TCP 立 即 响 应 以 一 个 RST， 客 户 的 
connect 调 用 就 会 立即 返回 一 个 错误 ， 强 制 应 用 进程 处 理 这 种 情况 ， 而 不 是 让 TCP 的 正 
常 重 传 机 制 来 处 理 。 男 外 ， 客 户 无 法 区 别 响应 SYN 的 RST 究 竞 意味 着 “该 端口 没有 服务 
器 在 监听 ”， 还 是 意味 着 “该 端口 有 服务 器 在 监听 ， 不 过 它 的 队列 满 了 ” 

有 些 实现 在 这 些 队列 满 时 确实 发 送 RST。 由 于 上 述 原 因 ， 这 种 做 法 是 不 正确 的 ， 我 们 最 
好 忽略 其 存在 的 可 能 性 ， 除 非 客 户 明确 要 求 与 这 样 的 服务 器 交互 。 处 理 这 种 情况 的 额外 代码 
编写 会 降低 客户 程序 的 健壮 性 ， 在 正常 的 RST 情 况 下 ( 即 确实 没有 服务 器 在 客户 请 求 的 端口 
上 监听 ) ， 也 增加 了 网 络 的 负荷 。 
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e 在 三 路 握手 完成 之 后 , 但 在 服务 器 调用 accept 之 前 到 达 的 数据 应 由 服务 器 TCP 排 队 , 最 
大 数据 量 为 相应 已 连接 套 接 字 的 接收 缓冲 区 大 小 。 
图 4-10 给 出 了 图 1-16 所 列 的 各 种 操作 系统 下 ，backiog 参 数 取 不 同 值 时 已 排队 连接 的 实际 数 
目 。7 个 操作 系统 被 归纳 成 5 列 不 同 的 值 ， 可 见 对 backiog 的 意义 的 解释 是 如 此 多 样 。 


实际 已 排队 连接 的 最 大 数目 
backlog MacOS 10.2.6 FreeBSD 4.8 
AIX 5.1 - K FreeBSD 5.1 
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0 
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图 4-10 ”不同 backiog 值 时 已 排队 连接 的 实际 数目 


AIX 和 MacOS 有 传统 的 Berkeley 算 法 ，Solaris 也 似乎 非常 接近 该 算法 ，FreeBSD 则 是 backlog 


值 本身 加 1。 


测量 这 些 值 的 程序 在 习题 15.4 的 解答 中 给 出 。 

我 们 已 提 到 过 ， 历 史上 曾 把 packiog 值 指定 为 两 个 队列 之 和 的 最 大 值 。 在 1996 年 间 ， 因 特 
网 受到 一 种 称 之 为 SYN 泛 混 (SYN flooding) 的 新 型 攻击 [CERT 1996b ] 。 黑客 编写 了 一 个 
以 高 速率 给 受害 主机 发 送 SYN 的 程序 , 用 以 装填 一 个 或 多 个 TCP 端 口 的 未 完成 连接 队列 。( 我 
们 用 黑客 (hacker) 一 词 来 指称 攻击 者 ， 见 [ Cheswick, Bellovin, and Rubin 2003] . ) mB, 
该 程序 将 每 个 SYN 的 源 IP 地 址 都 置 成 随机 数 ( 称 为 IP 欺 骗 (IP spoofing) ) ， 这 样 服务 器 的 
SYN/ACK 就 发 往 不 知道 什么 地 方 ， 同 时 防止 受 攻击 服务 器 获悉 黑客 的 真实 下地 址 。 这 样 ， 通 
过 以 伪造 的 SYN 装 填 未 完成 连接 队列 ， 使 合法 的 SYN 排 不 上 队 ， 导 致 针对 合法 客户 的 服务 被 
拒绝 (denial of service) 。 有 两 种 处 理 这 种 拒绝 服务 型 攻击 的 常用 方法 ， [ Borman 1997c ] 作 
了 总 结 。 不 过 这 儿 我 们 最 感 兴趣 的 是 回味 一 下 1isten 的 packiog 参 数 的 确切 含义 。 它 应 该 指定 
某 个 给 定 套 接 字 上 内 核 为 之 排队 的 最 大 已 完成 连接 数 。 对 于 已 完成 连接 数 作 出 限制 的 目的 在 
F: 在 监听 某 个 给 定 套 接 字 的 应 用 进程 (不论 什么 原因 ) 停止 接受 连接 的 时 候 ， 防 止 内 核 在 
该 套 接 字 上 继续 接受 新 的 连接 请 求 。 如 果 一 个 系统 实现 了 这 样 的 解释 ( 例如 BSD/OS 3.0) ， 
那么 应 用 程序 就 无 需 仅 仅 因 为 服务 器 进程 需要 处 理 大 量 客户 请 求 (例如 葡 忙 的 Web 服 务 器 ) 
或 者 为 了 提供 对 SYN 泛 滥 的 防护 而 指定 一 个 巨大 的 backlog 值 了 。 内 核 处 理 大 量 的 未 完成 连 
接 ， 而 不 论 它们 来 自 合法 客户 还 是 来 自 黑客 。 然 而 即使 在 这 样 的 解释 下 ， 传 统 为 5 的 backiog 
值 不 够 大 的 情形 依然 发 生 。 
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4.6 accept 函数 


accept 函 数 由 TCP 服 务 器 调用 ， 用 于 从 已 完成 连接 队列 队 头 返回 下 一 个 已 完成 连接 〈 图 
4-6)。 如 果 已 完成 连接 队列 为 空 ， 那 么 进程 被 投入 睡眠 〈 假 定 套 接 字 为 默认 的 阻塞 方式 )。 


#include «sys/socket.h» 








int accept (int sockfd, struct sockaddr *cliaddr, socklen t *addrlen) ; 


返回 : 若 成 功 则 为 非 负 描述 符 ， 若 出 错 则 为 -1 





参数 cliaddr 和 addrlen 用 来 返回 已 连接 的 对 端 进 程 客户) 的 协议 地 址 。addrlen 是 值 -结果 
参数 (3.3 节 ): 调用 前 ， 我 们 将 由 *addrlien 所 引用 的 整数 值 置 为 由 cliaddr 所 指 的 套 接 字 地 址 结构 
的 长 度 ， 返 回 时 ， 该 整数 值 即 为 由 内 核 存 放 在 该 套 接 字 地 址 结构 内 的 确切 字 节 数 。 

如 果 accept 成 功 ， 那 么 其 返回 值 是 由 内 核 自 动 生成 的 一 个 全 新 描述 符 ， 代 表 与 所 返回 客户 
的 TCP 连 接 。 在 讨论 accept 函 数 时， 我们 称 它 的 第 一 个 参数 为 监听 套 接 字 Clistening socket) Hi 
述 符 ( 由 socket 创 建 ， 随 后 用 作 bind 和 1isten 的 第 一 个 参数 的 描述 符 )， 称 它 的 返回 值 为 已 连 
接 套 接 字 (connected socket) 描述 符 。 区 分 这 两 个 套 接 字 非常 重要 。 一 个 服务 器 通常 仅仅 创建 
一 个 监听 套 接 字 ， 它 在 该 服务 器 的 生命 期 内 一 直 存 在 。 内 核 为 每 个 由 服务 器 进程 接受 的 客户 连 
接 创建 一 个 已 连接 套 接 字 ( 也 就 是 说 对 于 它 的 TCP 三 路 握手 过 程 已 经 完成 )。 当 服务 器 完成 对 某 
个 给 定 客户 的 服务 时 ， 相 应 的 已 连接 套 接 字 就 被 关闭 。 

本 函数 最 多 返回 三 个 值 ， 一 个 既 可 能 是 新 套 接 字 描 述 符 也 可 能 是 出 错 指 示 的 整数 、 客 户 进 
程 的 协议 地 址 (由 cliaddr 指 针 所 指 ) 以 及 该 地 址 的 大 小 (由 addrien 指 针 所 指 }。 如 果 我 们 对 返回 
客户 协议 地 址 不 感 兴趣 ， 那 么 可 以 把 cliaddr 和 addrlen 均 置 为 空 指针 。 

图 1-9 展 示 了 这 些 指针 。 已 连接 套 接 字 每 次 都 在 循环 中 关闭 ,但 监听 套 接 字 在 服务 器 的 整个 
有 效 期 内 都 保持 开放 。 我 们 还 看 到 accept 的 第 二 和 第 三 个 参数 都 是 空 指针 ， 因 为 我 们 对 客户 的 
身份 不 感 兴趣 。 


例子 : 值 -结果 参数 


现在 ,我们 通过 修改 图 1-9 中 所 示 代 码 以 显示 客户 的 人 P 地 址 和 端口 号 ， 来 看 看 如 何 处 理 
accept 的 值 -结果 参数 ， 见 图 4-11。 
新 的 声 阴 
7-8 我 们 定义 两 个 新 的 变量 : len， 它 将 成 为 一 个 值 -结果 变量 ;cliaadqr， 它 将 存放 客户 
的 协议 地 址 。 
接受 连接 并 显示 客户 地 址 
19-23 ”我 们 将 len 初 始 化 为 套 接 字 地 址 结构 的 大 小 ， 将 指向 cliaddr 结 构 的 指针 和 指向 len 的 
指针 分 别 作为 accept 的 第 二 和 第 三 个 参数 。 调 用 inet_ntop (3.7450 将 套 接 字 地 址 结 
构 中 的 32 位 中 地 址 转换 为 一 个 点 分 十 进 制 数 ASCII[ 字 符 串 ， 调 用 ntohs (3.4 节 ) 将 16 位 
的 端口 号 从 网 络 字 节 序 转换 为 主机 字 节 序 。 
调用 sock_ntop 来 取代 inet_ntop 将 使 得 我 们 的 服务 器 更 具 协 议 无 关 性 ， 不 过 该 服务 器 
已 经 依赖 于 IPv4 了 。 我 们 将 在 图 11-13 中 给 出 该 服务 器 程序 的 协议 无 关 版 本 。 
运行 这 个 新 的 服务 器 程序 ,然后 在 同一 个 主机 上 连续 运行 客户 程序 两 次 以 连接 到 该 服务 器 ， 
我 们 得 到 来 自 客户 的 如 下 输出 : 
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solaris % daytimetcpcli 127.0.0.1 
Thu Sep 11 12:44:00 2003 

solaris % daytimetcpcli 192.168.1.20 
Thu Sep 11 12:44:09 2003 


ee — — — intro/daytimetcpsrvl.c 
1 #include "unp.h" 
2 #include «time.h» 
3 int 
4 main(int argc, char **argv) 
5 { 
6 int listenfd, connfd; 
7 socklen t len; 
8 struct sockaddr in servaddr, cliaddr; 
9 char buff [MAXLINE]; 
10 time t ticks; 
11 listenfd = Socket(AF INET, SOCK STREAM, 0); 
12 bzero(&servaddr, sizeof (servaddr)); 
13 servaddr.sin_family = AF_INET; 
14 servaddr.sin addr.s addr = htonl(INADDR ANY); 
15 servaddr.sin port = htons(13);/* daytime server */ 
16 Bind(listenfd, (SA *) &servaddr, sizeof (servaddr) ); 
17 Listen(listenfd, LISTENQ); 
18 for [£i 
19 len = sizeof(cliaddr); 
20 connfd - Accept(listenfd, (SA *) &cliaddr, &len); 
21 printf("connection from $s, port %d\n", 
22 Inet ntop(AF INET, &cliaddr.sin addr, buff, sizeof(buff)), 
23 ntohs (cliaddr.sin_port) ); 
24 ticks = time(NULL); 
25 snprintf (buff, sizeof(buff), "%$.24s\r\n", ctime(&ticks)); 
26 Write(connfd, buff, strlen(buff)); 
27 Close (connfd) ; 
28 } 
29 ) 

intro/daytimetcpsrv1.c 





图 4-11 显示 客户 下 地 址 和 端口 号 的 时 间 获 取 服 务 器 程序 


我 们 首先 把 服务 器 主机 的 地 址 指定 为 环 回 地 址 (127.0.0.1)， 然 后 指定 为 它 自身 的 IP 地 址 
(192.168.1.20)。 下 面 是 相应 的 服务 器 输出 : 


solaris # daytimetcpsrv1 
connection from 127.0.0.1, port 43388 
connection from 192.168.1.20, port 43389 


注意 客户 耶 地 址 的 变化 。 既 然 我 们 的 时 间 获 取 客 户 程序 (图 1-5) 不 调用 bina， 而 我 们 在 4.4 
节 说 过 ， 这 样 的 客户 由 内 核 根 据 所 用 外 出 接口 选 定 源 耻 地 址 。 第 一 个 案例 中 ， 内 核 把 源 IP 地 址 
置 为 环 回 地 址 ; 第 二 个 案例 中 ， 内 核 把 源 IP 地 址 置 为 以 太 网 接口 的 人 P 地 址 。 从 本 例子 中 我 们 还 
看 到 ， 由 Solaris 内 核 选择 的 临时 端口 号 先是 43388， 后 是 43389( 回 顾 图 2-10)。 

最 后 一 点 ， 服务 器 脚本 的 shell 提 示 符 变 为 井 号 (#)， 它 是 超级 用 户 的 常用 提示 符 。 该 服务 器 
必须 以 超级 用 户 特权 运行 ,以 便 绑 定 保留 的 13 号 端口 。 如 果 没 有 超级 用 户 特权 , 调用 bina 将 失败 : 


Solaris % daytimetcpsrv1 
bind error: Permission denied 
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4.7 fork 和 exec HHA 








在 阐述 如 何 编写 并 发 服务 器 程序 之 前 (下 一 节 )， 我 们 必须 首先 介绍 一 下 Unix 的 fork 函 数 。 
该 函数 〈 包 括 有 些 系统 可 能 提供 的 它 的 各 种 变 体 ) 是 Unix 中 派生 新 进程 的 唯一 方法 。 


#include <unistd.h> 





pid t fork(void); 





返回 : 在 子 进程 中 为 0， 在 父 进 程 中 为 子 进程 ID， 若 出 错 则 为 -1 


如 果 你 以 前 从 未 接触 过 该 函数 , 那么 理解 fork 最 困难 之 处 在 于 调用 它 一 次 , 它 却 返回 两 次 。 
它 在 调用 进程 〈 称 为 父 进程 ) 中 返回 一 次 ， 返 回 值 是 新 派生 进程 〈 称 为 子 进程 ) 的 进程 ID 号 ; 
在 子 进程 又 返回 一 次 ， 返 回 值 为 0。 因 此 ， 返 回 值 本 身 告 知 当前 进程 是 子 进程 还 是 父 进程 。 

fork 在 子 进程 返回 0 而 不 是 父 进程 的 进程 ID 的 原因 在 于 : 任何 子 进程 只 有 一 个 父 进程 ， 而 
且 子 进程 总 是 可 以 通过 调用 getppiq 取 得 父 进程 的 进程 ID 。 相 反 ， 父 进程 可 以 有 许多 子 进 程 ， 
而 且 无 法 获取 各 个 子 进程 的 进程 ID。 如 果 父 进程 想 要 跟踪 所 有 子 进 程 的 进程 ID， 那 么 它 必 须 记 
录 每 次 调用 fork 的 返回 值 。 

父 进程 中 调用 fork 之 前 打开 的 所 有 描述 符 在 fork 返 回 之 后 由 子 进程 分 享 。 我 们 将 看 到 网 络 
服务 器 利用 了 这 个 特性 : 父 进 程 调用 accept 之 后 调用 fork。 所 接受 的 已 连接 套 接 字 随 后 就 在 父 
进程 与 子 进程 之 间 共 享 。 通 常情 况 下 ， 子 进程 接着 读 写 这 个 已 连接 套 接 字 ， 父 进程 则 关闭 这 个 
已 连接 套 接 字 。 

fork 有 了 两 个 典型 用 法 。 

(1) 一 个 进程 创建 一 个 自身 的 副本 , 这 样 每 个 副本 都 可 以 在 另 一 个 副本 执行 其 他 任务 的 同时 
处 理 各 自 的 某 个 操作 。 这 是 网 络 服务 器 的 典型 用 法 。 我 们 将 在 本 书后 面 看 到 许多 这 样 的 例子 。 

(2) 一 个 进程 想 要 执行 男 一 个 程序 。 既 然 创建 新 进程 的 唯一 办 法 是 调用 fork， 该 进程 于 是 
首先 调用 fork 创 建 一 个 自身 的 副本 ,然后 其 中 一 个 副本 (通常 为 子 进程 ) 调 用 exec〈 接 下 去 介 
绍 ) 把 自身 替换 成 新 的 程序 。 这 是 诸如 shell 之 类 程序 的 典型 用 法 。 

存放 在 硬盘 上 的 可 执行 程序 文件 能 够 被 Unix 执 行 的 唯一 方法 是 : 由 一 个 现 有 进程 调用 六 个 
exec 函 数 中 的 某 一 个 。( 当 这 6 个 函数 中 是 哪 一 个 被 调用 并 不 重要 时 ， 我 们 往往 把 它们 统称 为 
exec 函 数 。) exec 把 当前 进程 映像 替换 成 新 的 程序 文件 ， 而 且 该 新 程序 通常 从 main 函 数 开 始 执 
行 。 进 程 ID 并 不 改变 。 我 们 称 调用 exec 的 进程 为 调用 进程 〈calling process)， 称 新 执行 的 程序 
为 新 程序 (new program). 


较 老 的 手册 和 书本 不 确切 地 称 新 程序 为 新 进程 (new process) ， 这 是 错误 的 ， 因 为 其 中 
并 没有 创建 新 的 进程 。 


这 6 个 exec 函 数 之 间 的 区 别 在 于 : Ca) 待 执行 的 程序 文件 是 由 文件 名 《fename) 还 是 由 路 
42% (pathname) 指定 ; (b) 新 程序 的 参数 是 一 一 列 出 还 是 由 一 个 指针 数组 来 引用 ; CO 把 调 


用 进程 的 环境 传递 给 新 程序 还 是 给 新 程序 指定 新 的 环境 。 


#include <unistd.h> 


int execl(const char *pathname, const char *arg0, ... /* (char *) 0 */ ); 


int execv(const char *pathname, char *const *argv[]); 
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int execle(const char *pathname, const char *arg0, ... 
/* (char *) 0, char *const envp[] */ ); 


int execve(const char *pathname, char *const argv[], char *const envp[]); 


int execlp(const char *filemame, const char *argÜü, ... /* (char *) 0 */ ); 
int execvp(const char *filename, char *const argv[]); 
均 返回 : 车 成 功 则 不 返回 ， 若 出 错 则 为 -1 
这 些 函数 只 在 出 错时 才 返 回 到 调用 者 。 和 否则 ， 控 制 将 被 传递 给 新 程序 的 起 始点 ， 通 常 就 是 
main. 
这 6 个 函数 间 的 关系 如 图 4-12 所 示 。 一 般 来 说 ， 只 有 execve 是 内 核 中 的 系统 调用 ， 其 他 5 个 
都 是 调用 execve 的 库 函 数 。 













execlp (file, arg, ..., 0) exec] (path, arg, ..., 0) execle (path, arg, ..., 0, envp) 


execvp (file, argv) 





execv (path, argv) execve (path, argu, enup) 


图 4-12 ”6 个 exec 函 数 的 关系 


注意 这 6 个 函数 的 下 列 区 别 。 

(1) 上 面 那 行 的 3 个 函数 把 新 程序 的 每 个 参数 字符 串 指定 成 exec 的 一 个 独立 参数 ， 并 以 一 个 
空 指针 结束 可 变数 量 的 这 些 参数 。 下 面 那 行 的 3 个 函数 都 有 一 个 作为 exec 参 数 的 argv 数 组 ， 其 中 
含有 指向 新 程序 各 个 参数 字符 串 的 所 有 指针 。 既 然 没 有 指定 参数 字符 串 的 数目 ， 这 个 argy 数 组 
必须 含有 一 个 用 于 指定 其 末尾 的 空 指针 。 

(2) 左 列 2 个 函数 指定 一 个 filename 参 数 。exec 将 使 用 当前 的 PATH 环 境 变 量 把 该 文件 名 参数 
转换 为 一 个 路 径 名 。 然 而 一 旦 这 2 个 函数 的 filename 参 数 中 含有 一 个 斜 杠 (/)， 就 不 再 使 用 PATH 
环境 变量 。 右 两 列 4 个 函数 指定 一 个 全 限定 的 pathname 参 数 。 

(3) 左 两 列 4 个 函数 不 显 式 指定 一 个 环境 指针 。 相 反 ， 它 们 使 用 外 部 变量 environ 的 当前 值 
来 构造 一 个 传递 给 新 程序 的 环境 列表 。 右 列 2 个 函数 显 式 指 定 一 个 环境 列表 ,其 envp 指 针 数 组 必 [113] 
须 以 一 个 空 指针 结束 。 

进程 在 调用 exec 之 前 打开 着 的 描述 符 通常 跨 exec 继 续 保 持 打 开 。 我 们 使 用 限定 词 “ 通 常 ” 
是 因为 本 默认 行为 可 以 使 用 fcnt1 设 置 FD_cLoEXEC 描 述 符 标 志 禁 止 掉 。ineta 服 务 器 就 利用 了 
这 个 特性 ， 我 们 将 在 13.5 节 讲述 这 一 点 。 


48 ”并 发 服务 器 _ ! 


图 4-11 中 的 服务 器 是 一 个 选 代 服 务 器 Citerative server)。 对 于 像 时 间 获 取 这 样 的 简单 服务 器 
来 说 ， 这 就 够 了 。 然 而 当 服 务 一 个 客户 请 求 可 能 花费 较 长 时 间 时 ， 我 们 并 不 希望 整个 服务 器 被 
单个 客户 长 期 占用， 而 是 希望 同时 服务 多 个 客户 。Unix 中 编写 并 发 服务 器 程序 最 简单 的 办 法 就 
是 fork 一 个 子 进程 来 服务 每 个 客户 。 图 4-13 给 出 了 一 个 典型 的 并 发 服务 器 程序 的 轮廓 。 
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pid t pid; 
int listenfd, connfd; 
listenfd - Socket( ... ); 


/* fill in sockaddr in() with server's well-known port */ 


Bind(listenfd, ... ); 
Listen(listenfd, LISTENQ); 
for (;;) ( 
connfd - Accept(listenfd, ... ): /* probably blocks */ 
if ( (pid = Fork()) == 0) ( 
Close(listenfd); /* child closes listening socket */ 
doit (connfd); /* process the request */ 
Close(connfd); /* done with this client */ 
exit(0); /* child terminates */ 
) 
Close (connfd) ; /* parent closes connected socket */ 





图 4-13 ”典型 的 并 发 服务 器 程序 轮 廊 


当 一 个 连接 建立 时 ，accept 返 回 ， 服 务 器 接着 调用 fork， 然 后 由 子 进程 服务 客户 〈 通 过 已 
连接 套 接 字 connfa)， 父 进程 则 等 待 另 一 个 连接 (通过 监听 套 接 字 ]1istenfa)。 既然 新 的 客户 由 
子 进程 提供 服务 ， 父 进程 就 关闭 已 连接 套 接 字 。 

图 4-13 中 我 们 假设 由 函数 aoit 执 行 服务 客户 所 和 需 的 所 有 操作 。 当 该 函数 返回 时 ， 我 们 在 子 
进程 中 显 式 地 关闭 已 连接 套 接 字 。 这 一 点 并 非 必需 ， 因 为 下 一 个 语句 就 是 调用 exit， 而 进程 终 
止 处 理 的 部 分 工作 就 是 关闭 所 有 由 内 核 打开 的 描述 符 。 是 否 显 式 调用 close 只 和 个 人 编程 风格 
有 关 。 

我 们 在 2.6 节 说 过 ， 对 一 个 TCP 套 接 字 调用 close 会 导致 发 送 一 个 FIN， 随后 是 正常 的 TCP 连 
搂 终止 序列 。 为 什么 图 4-13 中 父 进程 对 connfa 调 用 close 没 有 终止 它 与 客户 的 连接 呢 ? 为 了 便 
于 理解 ， 我 们 必须 知道 每 个 文件 或 套 接 字 都 有 一 个 引用 计数 。 引 用 计数 在 文件 表 项 中 维护 
CAPUE 第 58 一 59 页 )， 它 是 当前 打开 着 的 引用 该 文件 或 套 接 字 的 描述 符 的 个 数 。 图 4-13 中 ， 
socket 返 回 后 与 1istenfa 关 联 的 文件 表 项 的 引用 计数 值 为 1,accept 返 回 后 与 connfa 关 联 的 文 
件 表 项 的 引用 计数 值 也 为 1。 然 而 fork 返 回 后 ， 这 两 个 描述 符 就 在 父 进程 与 子 进程 闻 其 享 Gb 
就 是 被 复制 )， 因此 与 这 两 个 套 接 字 相关 联 的 文件 表 项 各 自 的 访问 计数 值 均 为 2。 这 么 一 来 ， 当 
父 进 程 关闭 connfa 时 ， 它 只 是 把 相应 的 引用 计数 值 从 2 减 为 1。 该 套 接 字 真 正 的 清理 和 资源 释放 
要 等 到 其 引用 计数 值 到 达 0 时 才 发 生 。 这 会 在 稍 后 子 进程 也 关闭 connfa 时 发 生 。 

我 们 还 可 以 将 图 4-13 中 出 现 的 套 接 字 和 连接 用 图 示 直 观 地 表现 出 来 。 首 先 ， 图 4-14 给 出 了 
在 服务 器 阻塞 于 accept 调 用 目 来 自 客户 的 连接 请 求 到 达 时 客户 和 服务 器 的 状态 。 

客户 服务 器 


连接 请 求 _____--- listenfd 
connect()é---------- 


图 4-14 accept 返 回 前 客户 /服务 器 的 状态 


从 accept 返 回 后 ， 我 们 立即 就 有 图 4-15 所 示 状 态 。 连接 被 内 核 接受 ， 新 的 套 接 字 connfa 被 
创建 。 这 是 一 个 已 连接 套 接 字 ， 可 由 此 跨 连 接 读 写 数据 。 
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客户 服务 器 


listenfd 
connect () 连接 
connfd 


图 4-15 _ accept 返回 后 客户 /服务 器 的 状态 
并 发 服务 器 的 下 一 步 是 调用 fork， 图 4-16 给 出 了 从 fork 返 回 后 的 状态 。 


客户 服务 器 ( 父 进程 












listenfd 


connfd 





服务 器 | ( 子 进程 》 
listenfd 


connfd 


图 4-16 ”fork 返 回 后 客户 /服务 器 的 状态 


注意 ， 此 时 1istenfda 和 connfd 这 两 个 描述 符 都 在 父 进程 和 子 进 程 之 间 共 享 (被 复制 )。 
再 下 一 步 是 由 父 进 程 关闭 已 连接 套 接 字 ， 由 子 进 程 关 闭 监听 套 接 字 ， 如 图 4-17 所 示 。 


客户 服务 器 ( 父 进程 ) 


服务 器 〈 子 进程 》 






图 4-17 父子 进程 关闭 相应 套 接 字 后 客户 /服务 器 的 状态 


这 是 这 两 个 套 接 字 所 期 望 的 最 终 状 态 。 子 进程 处 理 与 客户 的 连接 ， 父 进程 则 可 以 在 监听 套 
接 字 上 再 次 调用 accept 来 处 理 下 一 个 客户 连接 。 
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4.9 close RA 











通常 的 Unix close 函 数 也 用 来 关闭 套 接 字 ， 并 终止 TCP 连 接 。 
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#include «unistd.b» 


int close(int sockfd); 





返回 ， 若 成 功 则 为 0， 若 出 错 则 为 -1! 


close 一 个 TCP 套 接 字 的 默认 行为 是 把 该 套 接 字 标 记 成 已 关闭 ， 然 后 立即 返回 到 调用 进程 。 
该 套 接 字 描 述 符 不 能 再 由 调用 进程 使 用 ， 也 就 是 说 它 不 能 再 作为 reaG 或 write 的 第 一 个 参数 。 
然而 TCP 将 尝试 发 送 已 排队 等 待 发 送 到 对 端的 任何 数据 ， 发 送 完毕 后 发 生 的 是 正常 的 TCP 连 接 
终止 序列 《2.6 节 )。 

我 们 将 在 7.5 节 介绍 的 So_LINGER 套 接 字 选项 可 以 用 来 改变 TCP 套 接 字 的 这 种 默认 行为 。 我 
们 还 将 在 那 节 介绍 TCP 应 用 进程 必须 怎么 做 才能 确信 对 端 应 用 进程 已 收 到 所 有 未 处 理 数 据 。 


描述 符 引用 计数 


在 4.8 节 末尾 我 们 提 到 过 , 并 发 服务 器 中 父 进程 关闭 已 连接 套 接 字 只 是 导致 相应 描述 符 的 引 
用 计数 值 减 1。 既 然 引 用 计数 值 仍 大 于 0， 这 个 close 调 用 并 不 引发 TCP 的 四 分 组 连接 终止 序列 。 
对 于 父 进 程 与 子 进程 共享 已 连接 套 接 字 的 并 发 服务 器 来 说 ， 这 正 是 所 期 望 的 。 

如 果 我 们 确实 想 在 某 个 TCP 连 接 上 发 送 一 个 FIN， 那 么 可 以 改 用 shutaown 函 数 (6.647) 以 
代 蔡 close。 我 们 将 在 6.5 节 阐述 这 么 做 的 动机 。 

我 们 还 得 清楚 ， 如 果 父 进程 对 每 个 由 accept 返 回 的 已 连接 套 接 字 都 不 调用 close， 那 么 并 
发 服务 器 中 将 会 发 生 什 么 。 首 先 ， 父 进程 最 终 将 耗 尽 可 用 描述 符 ， 因 为 任何 进程 在 任何 时 刻 可 
拥有 的 打开 着 的 描述 符 数 通 常 是 有 限制 的 。 不 过 更 重要 的 是 ， 没 有 一 个 客户 连接 会 被 终止 。 当 
子 进 程 关 闭 已 连接 套 接 字 时 ,， 它 的 引用 计数 值 将 由 2 递减 为 1 且 保 持 为 1, 因为 父 进程 永 不 关闭 任 
何 已 连接 套 接 字 。 这 将 妨碍 TCP 连 接 终止 序列 的 发 生 ， 导 致 连接 一 直 打 开 着 。 
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4.10 getsockname 和 getpeername 函数 





这 两 个 函数 或 者 返回 与 某 个 套 接 字 关联 的 本 地 协议 地 址 Cgecsockname), 或 者 返回 与 某 个 
套 接 字 关 联 的 外 地 协议 地 址 (getpeername)。 ^ 


#include <sys/socket .h> 
int getsockname(int sockfd, struct sockaddr *localaddr, socklen_t *addrlen) ; 


int getpeername(int sockfd, struct sockaddr *peeraddr, socklen_t *addrlen) ; 


均 返 回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 








注意 ， 这 两 个 函数 的 最 后 一 个 参数 都 是 值 - 结 果 参 数 。 这 就 是 说 ， 这 两 个 函数 都 得 装填 由 
localaddr 或 peeraddr 指 针 所 指 的 套 接 字 地 址 结构 。 
讨论 bind 时 我 们 提 到 ， 使 用 “name” ( 名字 ) 一 词 仿 人 误解 。 这 两 个 函数 返回 与 某 个 网 
络 连接 的 两 端 中 任何 一 端 相关 联 的 协议 地 址 ， 对 于 IPv4 和 IPVv6 来 说 ， 就 是 下地 址 和 端口 号 的 
组 合 。 这 两 个 函数 与 域名 (第 9 章 ) 没有 任何 联系 。 
需要 这 两 个 函数 的 理由 如 下 所 述 。 
e 在 一 个 没有 调用 bina 的 TCP 客 户 上 ，connect 成 功 返 回 后 ，getsockname 用 于 返回 由 内 
核 赋予 该 连接 的 本 地 卫 地 址 和 本 地 端口 号 。 
e 在 以 端口 号 0 调用 bina《〈 告 知 内 核 去 选择 本 地 端口 号 ) 后 ，get sockname 用 于 返回 由 内 
核 赋予 的 本 地 端口 号 。 
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e getsockname 可 用 于 获取 某 个 套 接 字 的 地 址 族 ， 如 图 4-19 所 示 。 

e 在 一 个 以 通 配 卫 地 址 调用 binda 的 TCP 服 务 器 上 (图 1-9)， 与 某 个 客户 的 连接 一 旦 建立 
(accept 成 功 返 回 )，getsockname 就 可 以 用 于 返回 由 内 核 赋予 该 连接 的 本 地 IP 地 址 。 在 
这 样 的 调用 中 ， 套 接 字 描 述 符 参数 必须 是 已 连接 套 接 字 的 描述 符 , 而 不 是 监听 套 接 字 的 
描述 符 。 

e 当 一 个 服务 器 是 由 调用 过 accept 的 某 个 进程 通过 调用 exec 执 行程 序 时 ， 它 能 够 获取 客 
户 身份 的 唯一 途径 便 是 调用 getpeername。inetq (13.515) fork 并 exec 某 个 TCP 服 务 
器 程序 时 就 是 如 此 情形 ， 如 图 4-18 所 示 。ineta 调 用 accept (左上 方 方 框 ) 返回 两 个 值 : 
已 连接 套 接 字 描述 符 connfda， 这 是 函数 的 返回 值 ; 客户 的 下 地 址 及 端口 号 ， 如 图 中 标 有 
“对 端 地 址 ”的 小 方 框 所 示 〔 代 表 一 个 网 际 网 套 接 字 地 址 结构 )。ineta 随 后 调用 fork， 
派生 出 inetad 的 一 个 子 进程 。 既 然 子 进程 起 始 于 父 进 程 的 内 存 映像 的 一 个 副本 ， 父 进程 
中 的 那个 套 接 字 地 址 结构 在 子 进 程 中 也 可 用 ,那个 已 连接 套 接 字 描 述 符 也 是 如 此 (因为 
描述 符 在 父子 进程 之 间 是 共享 的 )。 然 而 当 子 进程 调用 exec 执 行 真正 的 服务 器 程序 〈 辟 
如 说 Telnet 服 务 器 程序 ) 时 , 子 进程 的 内 存 映像 被 替换 成 新 的 Telnet 服 务 器 的 程序 文件 (也 
就 是 说 包含 对 端 地 址 的 那个 套 接 字 地 址 结构 就 此 丢失 )， 不 过 那个 已 连接 套 接 字 描述 符 
跨 exec 继 续 保持 开放 。Telnet 服 务 器 首先 调用 的 函数 之 一 便 是 getpeername， 用 于 获取 





客户 的 IP 地 址 和 端口 号 。 
inetd inetd (FHF) 
对 端 地 址 
s [ ] 
connfdé - accept(') connfd 
~ 
Telnet 服 务 器 


connfd 


图 4-18 ”inetg 派 生 服务 器 的 例子 


显然 ， 最 后 一 个 例子 中 的 Telnet 服 务 器 必须 在 启动 之 后 获取 connfa 的 值 。 获 取 该 值 有 两 个 
常用 方法 。 第 一 种 方法 是 ， 调 用 exec 的 进程 可 以 把 这 个 描述 符号 格式 化 成 一 个 字符 串 ， 再 把 它 
作为 一 个 命令 行 参数 传递 给 新 程序 。 第 二 种 方法 是 ， 约 定 在 调用 exec 之 前 ， 总 是 把 某 个 特定 描 
述 符 置 为 所 接受 的 已 连接 套 接 字 的 描述 符 。ineta 采 用 的 是 第 二 种 方法 ， 它 总 是 把 描述 符 0、1 
和 2 置 为 所 接受 的 已 连接 套 接 字 的 描述 符 。 


例子 : 获取 套 接 字 的 地 址 族 
图 4-19 中 所 示 的 sockfq_to_family 函 数 返回 某 个 套 接 字 的 地 址 族 。 
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lib/sockfd_to_family.c 


1 #include "unp.h" 

2 int 

3 sockfd to family(int sockfd) 

4t 

5 struct sockaddr storage ss; 

6 socklen_t len; 

7 len = sizeof(ss) ; 

8 if (getsockname(sockfd, (SA *) &ss, &len) « 0) 
9 return (-1); 

10 return(ss.ss, family); 





lib/sockfd to family.c 
图 4-19 返回 套 接 字 的 地 址 族 


为 最 大 的 套 接 字 地 址 结构 分 配 空 间 
5 ”既然 不 知道 要 分 配 的 套 接 字 地 址 结构 的 类 型 , 我 们 于 是 采用 sockadqr_storage 这 个 通 
用 结构 ， 因 为 它 能 够 承载 系统 支持 的 任何 套 接 字 地 址 结构 。 
调用 getsockname 
7-10 ”我 们 调用 getsockname 返 回 地 址 族 。 既 然 POSIX 规 范 允 许 对 未 绑 定 的 套 接 字 调用 
getsockname， 该 函数 应 该 适合 任何 已 打开 的 套 接 字 描 述 符 。 
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411 小 结 


所 有 客户 和 服务 器 都 从 调用 socket 开始， 它 返 回 一 个 套 接 字 描 述 符 。 客 户 随 后 调用 
connect， 服 务 器 则 调用 bind、1isten 和 accept。 套 接 字 通常 使 用 标准 的 close 函 数 关 闭 ， 不 
过 我 们 将 看 到 使 用 shutaown 函 数 关 闭 套 接 字 的 另 一 种 方法 (6.6 节 )， 我 们 还 要 查看 sO_LINGER 
套 接 字 选项 对 于 关闭 套 接 字 的 影响 〈7.5 节 )。 

大 多 数 TCP 服 务 器 是 并 发 的 ， 它 们 为 每 个 待 处 理 的 客户 连接 调用 fork 派 生 一 个 子 进 程 。 我 
们 将 看 到 ， 大 多 数 UDP 服 务 器 却 是 迭代 的 。 尽 管 这 两 个 模型 已 经 成 功 地 运用 了 许多 年 ， 我 们 仍 
将 在 第 30 章 中 探讨 使 用 线程 和 进程 的 其 他 服务 器 程序 设计 方法 。 
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4.1 在 4.4 节 中 ， 我 们 说 头 文件 <netinet /in.h> 中 定义 的 INADDR_ 常 值 是 主机 字 节 序 的。 我 们 应 该 如 何 
辨别 ? 

42 ”把 图 1-5 改 为 在 connect 成 功 返 回 后 调用 get sockname。 使 用 sock_ntop 显 示 赋 予 TCP 套 接 字 的 本 地 
IP 地 址 和 本 地 端口 号 。 你 的 系统 的 临时 端口 在 什么 范围 内 《图 2-10) ? 

4.3 ”在 一 个 并 发 服务 器 中 ,假设 fork 调 用 返回 后 子 进程 先 运行 ， 而 且 子 进程 随后 在 fork 调 用 返回 父 进程 
之 前 就 完成 对 客户 的 服务 。 图 4-13 中 的 两 个 close 调 用 将 会 发 生 什么 ? 

44 ”在 图 4-11 中 ， 先 把 服务 器 的 端口 号 从 13 改 为 9999( 这 样 不 需要 超级 用 户 特权 就 能 启动 程序 ) ， 再 删 掉 
liscen 调 用 ， 将 会 发 生 什 么 ? 


45 继续 上 一 题 。 删 掉 bind 调 用 ， 但 是 保留 1isten 调 用 ， 又 将 发 生 什么 ? 
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我 们 将 在 本 章 使 用 前 一 章 中 介绍 的 基本 函数 编写 一 个 完整 的 TCP 客 户 /服务 器 程序 示例 。 这 
个 简单 的 例子 是 执行 如 下 步骤 的 一 个 回 射 服务 器 : 

(1) 客户 从 标准 输入 读 入 一 行文 本 ， 并 写 给 服务 器 ; 

(2) 服务 器 从 网 络 输入 读 入 这 行文 本 ， 并 回 射 给 客户 ; 

(3) 客户 从 网 络 输入 读 入 这 行 回 射 文本 ， 并 显示 在 标准 输出 上 。 

图 5-1 描 述 了 这 个 简单 的 客户 /服务 器 ， 并 标 出 了 用 于 输入 和 输出 的 函数 。 


zs f 5 
标准 输入 get writen read 
Tee dline writen TCP 服 务 器 
x ea 
标准 输出 icis 


图 5-1 简单 的 回 射 客 户 /服务 器 


我 们 在 客户 与 服务 器 之 间 画 了 两 个 箭头 ， 不 过 它们 实际 上 构成 一 个 全 双 工 的 TCP 连 接 。 
fgets 和 fputs 这 两 个 函数 来 自 标准 VO 函数 库 ， writen 和 readqline 这 两 个 函数 详 见 3.9 节 。 

尽管 我 们 将 开发 自己 的 回 射 服务 器 实现 ， 大 多 数 TCP/IP 实 现 却 已 经 提供 了 这 样 的 服务 器 ， 
既 有 使 用 TCP 的 ， 又 有 使 用 UDP 的 〈2.12 节 )。 我 们 还 将 与 自己 的 客户 一 道 使 用 这 些 服务 器 。 

回 射 输入 行 这 样 一 个 客户 /服务 器 程序 是 一 个 尽管 简单 然而 有 效 的 网 络 应 用 程序 例子 。 实现 
任何 客户 /服务 器 网 络 应 用 所 需 的 所 有 基本 步骤 可 通过 本 例子 阑 明 。 车 想 把 本 例子 扩充 成 你 自己 
的 应 用 程序 ， 你 只 需 修改 服务 器 对 来 自 客户 的 输入 的 处 理 过 程 。 

除了 以 正常 的 方式 运行 本 例子 的 客户 和 服务 器 〈 即 键入 一 行文 本 并 观察 它 的 回 射 ) 之 外 ， 
我 们 还 会 探讨 它 的 许多 边界 条 件 ， 客户 和 服务 器 启动 时 发 生 什么 ? 客户 正常 终止 时 发 生 什么 ? 
若 服务 器 进程 在 客户 之 前 终止 ， 则 客户 会 发 生 什么 ? 车 服 务 器 主机 崩溃 ， 则 客户 发 生 什么 ? 如 
此 等 等 。 通 过 观察 这 些 情形 ， 弄 清 在 网 络 层次 发 生 什么 以 及 它们 如 何 反 映 到 套 接 字 API， 我 们 
将 更 多 地 理解 这 些 层次 的 工作 原理 ， 并 体会 如 何 编 写 应 用 程序 代码 来 处 理 这 些 情形 。 

在 所 有 这 些 例子 中 ， 我 们 把 诸如 地 址 和 端口 之 类 特定 于 协议 的 常 值 硬 编写 到 代码 中 。 这 么 
做 有 两 个 原因 : 一 是 我 们 必须 确切 了 解 在 特定 于 协议 的 地 址 结构 中 应 存放 什么 内 容 ， 二 是 我 们 
尚未 讨论 到 可 以 使 得 代码 更 便于 移植 的 库 函 数 ， 这 些 库 函 数 将 在 第 11 章 中 讨论 。 

我 们 现在 就 留意 ， 随 着 学 习 越 来 越 多 的 网 络 编程 知识 ， 我 们 将 在 后 续 各 章 中 多 次 修改 本 章 
的 客户 和 服务 器 程序 (图 1-12 和 图 1-13)。 


5.2 TCP 回 射 服务 器 程序 ，main 函数 
我 们 的 TCP 客 户 和 服务 器 程序 遵循 图 4-1 所 示 的 函数 调用 流程 .图 5-2 给 出 了 其 中 的 并 发 服务 





98 第 5 章 TCP 客 户 /服务 器 程序 示例 


器 程序 。 
tcpcliserv/tepserv01.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4{ 
5 int listenfd, connfd; 
6 pid t  childpid; 
7 socklen_t clilen; 
8 struct sockaddr in cliaddr, servaddr; 
9 listenfd - Socket(AF INET, SOCK STREAM, 0); 
10 bzero(&servaddr, sizeof(servaddr)); 
11 servaddr.sin family - AF INET; 
12 servaddr.sin addr.s addr - htonl(INADDR ANY); 
13 servaddr.sin port - htons(SERV PORT); 
14 Bind(listenfd, (SA *) &servaddr, sizeof (servaddr)): 
15 Listen(listenfd, LISTENQ); 
16 For.2 $2 t 
17 clilen - sizeof(cliaddr); 
18 connfd - Accept(listenfd, (SA *) &cliaddr, &clilen); 
19 if ( (childpid = Fork()) == 0) { /* child process */ 
20 Close(listenfd); /* close listening socket */ 
21 str echo (connfd); /* process the request */ 
22 exit(0); 
23 } 
24 Close (connfd) ; /* parent closes connected socket */ 
25 } 
26 } 


tcpcliserv/tcpserv01.c 
图 5-2 TCP 回 射 服务 器 程序 在 图 5-12 中 会 有 所 改进 ) 


创建 套 接 字 ， 捆 绑 服 务 器 的 众所周知 端口 

9-15 创建 一 个 TCP 套 接 字 。 在 待 捆绑 到 该 TCP 套 接 字 的 网 际 网 套 接 字 地 址 结构 中 填 入 通 配 地 
hk CINADDR_ANY) 和 服务 器 的 众所周知 端口 (SERV_PORT， 在 头 文件 unp.h 中 其 值 定 
义 为 9877)。 捆 绑 通 配 地 址 是 在 告知 系统 : 要 是 系统 是 多 宿主 机 ， 我 们 将 接受 目的 地 址 
为 任何 本 地 接口 的 连接 。 我 们 对 TCP 端 口号 的 选择 基于 图 2-10。 它 应 该 比 1023 大 (我 们 
不 需要 一 个 保留 端口 )， 比 5000 大 【以 免 与 许多 源 自 Berkeley 的 实现 分 配 临 时 端口 的 范 
围 冲突 )， 比 49152 小 (以 免 与 临时 端口 号 的 “正确 ”范围 冲突 )， 而 且 不 应 该 与 任何 已 
注册 的 端口 冲突 。1isten 把 该 套 接 字 转 换 成 一 个 监听 套 接 字 。 

等 待 完 成 客户 连接 

17-18 ”服务 器 阻塞 于 accept 调 用 ， 等 待 客户 连接 的 完成 。 

并 发 服务 器 

19-24 ”fork 为 每 个 客户 派生 一 个 处 理 它们 的 子 进程 。 正 如 我 们 在 4.8 节 讨论 的 那样 ， 子 进程 
关闭 监听 套 接 字 ， 父 进程 关闭 已 连接 套 接 字 。 子 进程 接着 调用 str_echo (图 $-3) 处 
理 客 户 。 


ett ams a t p Nu m PN Sena 


5.3 TCP 回 射 服务 器 程序 ，str_echo 函数 À 
图 5$-3 所 示 的 str_echo 函 数 执行 处 理 每 个 客户 的 服务 :从 客户 读 入 数据 ， 并 把 它们 回 射 给 
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客户 o D 
lib/str echo.c 

1 #include "unp.h" 

2 void 

3 str echo(int sockfd) 

4{ 

5 ssize_t n; 

6 char buf [MAXLINE] ; 

7 again: 

8 while ( (n = read(sockfd, buf, MAXLINE)) > 0) 
9 Writen(sockfd, buf, n); 
10 if (n < 0 && errno == EINTR) 
11 goto again; 
12 else if (n < 0) 
13 err_sys(“str_echo: read error"); 
14 } 








lib/str_echo.c 


图 $-3 str_echo 图 数 : 在 套 接 字 上 回 射 数据 


读 入 缓冲 区 并 回 射 其 中 内 容 
8-9 ” ”read 函数 从 套 接 字 读 入 数据 ，writen 函 数 把 其 中 内 容 回 射 给 客户 。 如 果 客户 关闭 连接 
《这 是 正常 情况 )， 那 么 接收 到 客户 的 FIN 将 导致 服务 器 子 进程 的 read 函 数 返回 0， 这 又 “|122 
导致 str_echo 函 数 的 返回 ， 从 而 在 图 5-2 中 终止 子 进程 。 123 


54 TCP PHAR: main 函数 
图 5$-4 所 示 为 TCP 客 户 的 main 函 数 。 





Q 这 -版 的 新 作者 在 图 3-17 和 图 3-18 中 修正 了 第 2 版 中 对 应 的 图 3-16 和 图 3-17 中 的 -一 个 错误 ， 也 就 是 在 读 入 一 些 数 
据 后 术 碰 到 EOF 的 情况 下 ，Stevens 先 生 把 读 入 字符 数 少 减 了 1; 不 过 他 们 却 在 图 5-3 中 过 早 地 使 用 了 不 以 文本 行 
为 中 心 的 代码 ， 而 本 书 以 文本 行为 中 心 的 回 射 服务 讨论 将 持续 到 6.7 节 为 止 。 在 本 书 以 文本 行为 中 心 的 回 射 服务 
讨论 中 ， 隐 含 假设 服务 器 也 是 面向 文本 行 从 套 接 字 读 取 数 据 ， 以 便 进一步 处 理 ( 见 5.18 节 )， 尽 管 纯粹 的 回 射 服 
务 没有 这 个 需要 。 从 这 个 意义 上 看 ， 第 2 版 中 对 应 的 图 5-3 更 为 确切 ， 而 且 尽 管 新 作者 修改 了 str_echo 函 数 ， 在 
随后 的 章节 中 却 又 不 加 修改 地 沿用 Stevens 先 生 的 解释 ， 可 能 会 让 读者 觉得 不 知 所 云 。 为 此 译 者 建议 读者 仍然 采 
用 第 2 版 中 对 应 的 图 5-3， 图 5-1 也 调整 为 第 2 版 中 对 应 的 图 $-1 〈 即 TCP 服 务 器 使 用 reaal ine 而 不 是 read 读 入 文 森 
行 )。 话 说 回来 ， 从 纯粹 的 回 射 服务 角度 看 ， 图 5-3 是 正确 的 (符合 RFC 862)， 而 第 2 版 中 对 应 的 图 $-3 只 能 面向 
文本 行 ， 而 不 能 面向 二 进 制 数据 。 需 指出 的 是 ， 面 向 文本 行 的 僚 接 字 读 操作 中 ， :次 reaa 调 用 不 能 保证 读 入 完 
整 的 一 行 或 数 行 ， 而 读 入 完整 的 -- 行 可 能 需要 多 次 reaq 调 用 ， 并 检查 其 中 是 否 出 现 换行 符 〈 这 就 是 图 3-17 和 图 
3-18 中 的 readline 函 数 的 功能 )。 如 果 在 回 射 服务 器 调用 的 str_echo 函 数 中 舍弃 现成 的 readline 函 数 不 用 而 直 
接 使 用 read 系 统 调用 ， 那 么 有 可 能 在 尚未 完全 读 入 -行文 本 之 前 ， 就 开始 回 射 其 中 的 内 容 了 。 客 户 不 会 显示 这 
样 的 不 完整 文本 行 ， 因 为 客户 的 套 接 字 读 操作 使 用 的 是 reaaline 而 不 是 read。 事 实 上 服务 器 也 不 大 可 能 读 入 不 
完整 的 文本 行 ， 因 为 客户 把 个 完整 的 文本 行 一 次 性 地 写 入 套 接 字 ， 而 较 短 的 文本 行 通常 就 被 封装 在 单个 TCP 
分 节 中 递送 到 对 端 ， 如 果 MaxLINE 常 值 足够 大 ， 那 么 通常 情况 下 - 次 读 操 作 恰好 读 入 完整 的 -- 行 ， 相反， 超过 
MSS 的 文本 行将 被 封装 到 多 个 TCP 分 节 中 递送 ， 服 务 器 可 能 就 甫 要 多 次 reaq 调 用 才能 读 入 完整 的 一 行 。 如 果 客 
户 把 -一 个 完整 的 文本 行 分 多 次 写 入 套 接 字 〈 司 如 像 Telnet 客 户 那样 把 每 个 字符 封装 在 单个 分 节 中 递送 到 对 端 )， 
那么 服务 器 将 持续 读 入 不 完整 的 文本 行 ，7.9 节 讲解 TCP 的 Nagle 算 法 时 就 有 这 样 的 例子 。 另 外 ， 对 于 新 作者 在 图 
3-17 和 图 3-18 中 修正 的 那个 错误 ， 译 者 认为 更 轨 帖 的 做 法 是 给 这 种 不 是 以 换行 符 结束 的 文本 行 添加 一 个 换行 符 ， 
也 就 是 在 第 2 版 的 图 3-16 和 图 3-17 中 处 理 这 种 情况 时 添加 一 个 语句 :“*ptr++ ='\n';”， 这 样 读 入 字符 数 就 不 用 
HIT. 这 种 做 法 有 例 可 循 ， 辟 如 用 vi 编辑 器 编辑 并 保存 最 后 一 行 不 是 以 换行 符 结尾 的 文本 文件 时 ,vi 同样 会 
给 最 后 一 行 添加 个 换行 符 。 一 一 译 者 注 
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tepcliserv/tepcli0l.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd; 
6 struct sockaddr in servaddr; 
7 if (argc !- 2) 
8 err quit("usage: tcpcli «IPaddress»"); 
9 Sockfd - Socket(AF, INET, SOCK STREAM, 0); 
10 bzero(&servaddr, sizeof(servaddr)); 
11 servaddr.sin family - AF INET; 
12 servaddr.sin port = htons(SERV PORT); 
13 Inet, pton(AF INET, argv[1], &servaddr.sin_addr) ; 
14 Connect(sockfd, (SA *) &servaddr, sizeof(servaddr)); 
15 str cli(stdin, sockfd); /* do it all */ 
16 exit (0); 
17 } 
tcpcliserv/tcpcli01.c 


图 5-4 ”TCP 回 射 客户 程序 


创建 套 接 字 ， 装 填 网 际 网 套 接 字 地 址 结构 
9-13 ”创建 一 个 TCP 套 接 字 ， 用 服务 器 的 亿 地 址 和 端口 号 装填 一 个 网 际 网 套 接 字 地 址 结构 。 
我 们 可 从 命令 行 参数 取得 服务 器 的 人 地 址 , 从 头 文件 unp.h 取 得 服务 器 的 众所周知 端口 


号 CSERV. PORT), 
连接 到 服务 器 


14-15 ， connect 建立 与 服务 器 的 连接 。str_cli 函 数 (图 $-$) 完成 剩余 部 分 的 客户 处 理工 作 。 
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5.5 TCP 回 射 客户 程序 ，str_cli Hi 


图 5-5 所 示 的 str_cli 函 数 完成 客户 处 理 循 环 ， 从 标准 输入 读 入 一 行文 本 ， 写 到 服务 器 上 ， 
读 回 服务 器 对 该 行 的 回 射 ， 并 把 回 射 行 写 到 标准 输出 上 。 








lib/str. cli.c 
1 finclude "unp.h" 
2 void 
3 str cli(FILE *fp, int sockfd) 
4 (t 
5 char sendiine[MAXLINE], recvline[MAXLINE]; 
6 while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 
7 Writen(sockfd, sendline, strlen(sendline)); 
8 if (Readline(sockfd, recvline, MAXLINE) -- 0) 
9 err quit("str cli: server terminated prematurely"); 
10 Fputs(recvline, stdout); 
11 } 
12 } 
lib/str_cli.c 





图 $-5 str_cli 函 数 : 客户 处 理 循环 
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读 入 一 行 ， 写 到 服务 器 
6-7 ”fgets 读 入 一 行文 本 ，writen 把 该 行 发 送 给 服务 器 。 

从 服务 器 读 入 回 射 行 ， 写 到 标准 输出 

8-10 ” ”readline 从 服务 器 读 入 回 射 行 ，fputs 把 它 写 到 标准 输出 。 

返回 到 main 函 数 

11-12 ” 当 遇 到 文件 结束 符 或 错误 时 ，fgets 将 返回 一 个 空 指针 ， 于 是 客户 处 理 循环 终止 。 我们 
的 Fgets 包 里 函数 检查 是 否 发 生 错 误 ， 车 发 生 则 中 止 进 程 ， 因 此 Fgets 只 是 在 过 到 文件 
结束 符 时 才 返 回 一 个 空 指针 。 
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5.6 ”正常 启动 u 


尽管 我 们 的 TCP 程 序 例子 很 小 (两 个 main 函 数 加 str_echo、 str cli. readlinefilwriten, 
总 共 约 1$0 行 代码 )， 然 而 对 于 我 们 弄 清 客户 和 服务 器 如 何 启动 ， 如 何 终止 ， 更 为 重要 的 是 当 发 
生 某 些 错误 〈 例 如 客户 主机 崩溃、 客户 进程 崩溃 、 网 络 连 接 断 开 ， 等 等 ) 时 将 会 发 生 什 么 ， 本 
例子 却 至 关 重 要 。 只 有 搞 清 这 些 边 界 条 件 以 及 它们 与 TCP/IP 协 议 的 相互 作用 ， 我 们 才能 写 出 能 
够 处 理 这 些 情况 的 健壮 的 客户 和 服务 器 程序 。 

首先 ， 我 们 在 主机 1inux 上 后 台 启 动 服务 器 。 


linux $ tcpserv01 & 
[1] 17870 


服务 器 启动 后 ， 它 调用 socket、bind、1listen 和 accept， 并 阻塞 于 accept 调 用 。( 我 们 
还 没有 启动 客户 )。 在 启动 客户 之 前 ， 我 们 运行 netstat 程 序 来 检查 服务 器 监听 套 接 字 的 状态 。 


linux $ netstat -a 

Active Internet connections (servers and established) 

Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 *:9877 om LISTEN 


我 们 这 里 只 给 出 了 输出 的 第 一 行 〈 标 题 ) 以 及 我 们 最 关心 的 那 一 行 。 本 命令 列 出 系统 中 所 
有 套 接 字 的 状态 ， 可 能 有 大 量 输出 。 我 们 必须 指定 -a 标 志 以 查看 监听 套 接 字 。 
这 个 输出 正 是 我 们 所 期 望 的 ;: 有 一 个 套 接 字 处 于 LISTEN 状 态 ， 它 有 通 配 的 本 地 也 地 址 ， 本 
地 端口 为 9877。netstat 用 星 号 “*” 来 表示 一 个 为 0 的 IP 地 址 (INADDR_ANY， 通 配 地 址 〉 或 为 
我 们 接着 在 同一 个 主机 上 启动 客户 ， 并 指定 服务 器 主机 的 IP 地 址 为 127.0.0.1〈 环 回 地 址 )。 
当然 我 们 也 可 以 指定 该 地 址 为 该 主机 的 普通 《〈 非 环 回 ) IP 地 址 。 
linux $ tcpcli01 127.0.0.1 
客户 调用 socket 和 connect， 后 者 引起 TCP 的 三 路 握手 过 程 。 当 三 路 握手 完成 后 ， 客 户 中 
的 connect 和 服务 器 中 的 accept 均 返回 ， 连 接 于 是 建立 。 接 着 发 生 的 步骤 如 下 : 
(1) 客户 调用 str_cli 函 数 , 该 函数 将 阻塞 于 fgets 调 用 ， 因为 我 们 还 未 曾 键 入 过 一 行文 本 。 
(2) 当 服 务 器 中 的 accept 返 回 时 ， 服 务 器 调用 fork， 再 由 子 进程 调用 str_echo。 该 函数 调 
用 readline，readline 调 用 reaG， 而 read 在 等 待 客户 送 入 一 行文 本 期 间 阻塞 。 
(3) 另 一 方面 ， 服 务 器 父 进 程 再 次 调用 accept 并 阻塞 ， 等 待 下 一 个 客户 连接 。 
人 至此， 我 们 有 3 个 都 在 睡眠 〈 即 已 阻塞 ) 的 进程 : 客户 进程 、 服 务 器 父 进程 和 服务 器 子 进程 。 
当 三 路 握手 完成 时 ， 我 们 特意 首先 列 出 客户 的 步骤 ， 接 着 列 出 服务 器 的 步骤 .从 图 2-5 中 
可 知 其 原因 : 客户 接收 到 三 路 握手 的 第 二 个 分 节 时 ，connect 返 回 ， 而 服务 器 要 直到 接收 到 
三 路 握手 的 第 三 个 分 节 才 返回 ， 即 在 connect 返 回 之 后 再 过 一 半 RTT 才 返回 。 
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我 们 特意 在 同一 个 主机 上 运行 客户 和 服务 器 , 因为 这 是 试验 客户 /服务 器 应 用 程序 的 最 简单 
方法 。 既 然 我 们 是 在 同一 个 主机 上 运行 客户 和 服务 器 ，netstat 给 出 了 对 应 所 建立 TCP 连 接 的 
两 行 额外 的 输出 。 


linux $ netstat -a 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 localhost :9877 localhost :42758 ESTABLISHED 
tcp 0 0 localnost:42758 localhost:9877 ESTABLISHED 
tcp 0 0 *:9877 bade Shad LISTEN 


第 一 个 ESTABLISHED 行 对 应 于 服务 器 子 进程 的 套 接 字 ， 因 为 它 的 本 地 端口 号 是 9877; 第 
二 个 ESTABLISHED 行 对 应 于 客户 进程 的 套 接 字 ， 因 为 它 的 本 地 端口 号 是 42758。 要 是 我 们 在 不 
同 的 主机 上 运行 客户 和 服务 器 ， 那 么 客户 主机 就 只 输出 客户 进程 的 套 接 字 ， 服 务 器 主机 也 只 输 
出 两 个 服务 器 进程 〈 一 个 父 进 程 一 个 子 进 程 ) 的 套 接 字 。 

我 们 也 可 用 ps 命令 来 检查 这 些 进 程 的 状态 和 关系 。 


linux € ps -t pts/6 -o pid,ppid,tty,stat,args,wchan 


PiD PPID TT STAT COMMAND WCHAN 
22038 22036 pts/6 S -bash waité 
17870 22038 pts/6 S ./tcpserv01 wait for connect 
19315 17870 pts/6 S ./tcpserv01 tcp data wait 
19314 22038 pts/6 S ./tcpcli01 127.0 read chan 


(我们 已 使 用 ps 相当 特定 的 命令 行 参 数 限定 它 只 输出 与 本 讨论 相关 的 信息 。) 从 输出 中 可 见 ， 客 
户 和 服务 器 运行 在 同一 个 窗口 中 〈 即 pts/6， 表 示 伪 终端 号 6)。PID 和 PPID 列 给 出 了 进程 间 的 父 
子 关系 。 由 于 子 进程 的 PPID 是 父 进程 的 PITD， 我 们 可 以 看 出 ， 第 一 个 cpserv01 行 是 父 进 程 ， 
第 二 个 tcpserv01 行 是 子 进 程 。 而 父 进程 的 PPID 是 shell (bash). 

我 们 所 有 三 个 网 络 进程 的 STAT 列 都 是 “S”， 表 明 进 程 在 为 等 待 某 些 资源 而 睡眠 。 进 程 处 于 
睡眠 状态 时 WCHAN 列 指出 相应 的 条 件 。Linux 在 进程 阻塞 于 accept 或 connect 时 ， 输 出 
wait for connect; 在 进程 阻塞 于 套 接 字 输 入 或 输出 时 ， 输 出 cp_aata_wait; 在 进程 阻塞 
于 终端 WO 时 , 输出 reaq_chan。 这 里 我 们 的 三 个 网 络 进程 的 WCHAN 值 所 表示 的 意义 一 目 了 然 。 


57 EE 
至 此 连接 已 经 建立 , 不 论 我 们 在 客户 的 标准 输入 中 键 和 什么， 都 会 回 射 到 它 的 标准 输出 中 。 





linux $ tcpcli01 127.0.0.1 我 们 已 经 给 出 过 本 行 

hello, world 现在 键入 这 一 行 

hello, world 这 一 行 被 回 射 回来 

good bye 

good bye 

^D <Ctrl+D> 是 我 们 的 终端 EOF 字 符 


我 们 键入 两 行 ， 每 行 都 得 到 回 射 ， 我 们 接着 键入 终端 EOF 字 符 〈Control-D) 以 终止 客户 。 
此 时 如 果 立 即 执行 netstat 命 令 ， 我 们 将 看 到 如 下 结果 ; 


linux $ netstat -a | grep 9877 
tcp 0 0 *:9877 *i* LISTEN 
tcp 0 0 localhost:42758 localhost:9877 TIME WAIT 


当前 连接 的 客户 端 〈 它 的 本 地 端口 号 为 42758) 进入 了 TIME_WAIT 状 态 (2.7 节 )， 而 监听 
服务 器 仍 在 等 待 另 一 个 客户 连接 。( 这 回 我 们 让 命令 netstat 的 输出 通过 管道 作为 grep 的 输入 ， 
从 而 只 输出 与 服务 器 的 众所周知 端口 相关 的 文本 行 。 这 样 做 也 删 掉 了 标题 行 。》 
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我 们 可 以 总 结 出 正常 终止 客户 和 服务 器 的 步骤 。 

(1) 当 我 们 键入 EOF 字 符 时 ，fgets 返 回 一 个 空 指 针 ， 于 是 str_cli 函 数 ( 图 5-5) 返回 。 

(2) 当 scr_cli 返 回 到 客户 的 main 函 数 〈 图 $-4) 时 ，main 通 过 调用 exit 终 止 。 

(3) 进程 终止 处 理 的 部 分 工作 是 关闭 所 有 打开 的 描述 符 ， 因 此 客户 打开 的 套 接 字 由 内 核 关 
闭 。 这 导致 客户 TCP 发 送 一 个 FIN 给 服务 器 ， 服 务 器 TCP 则 以 ACK 响 应 ， 这 就 是 TCP 连 接 终止 序 
列 的 前 半 部 分 。 至 此 ， 耻 务 器 套 接 字 处 于 CLOSE WAIT 状态 ， 客 户 套 接 字 则 处 于 FIN_WAIT 2 
状态 《图 2-4 和 图 2-5)。 

(4) 当 服 务 器 TCP 接 收 FIN 时 ， 服 务 器 子 进程 阻塞 于 readline 调 用 《图 $-3)， 于 是 reaGline 
返回 0。 这 导致 str_echo 函 数 返 回 服务 器 子 进 程 的 main 函 数 。 

(5) 服务 器 子 进程 通过 调用 exit 来 终止 (图 5-2)。 

(6) 服务 器 子 进程 中 打开 的 所 有 描述 符 随 之 关闭 。 由 子 进程 来 关闭 已 连接 套 接 字 会 引发 TCP 
连接 终止 序列 的 最 后 两 个 分 节 : 一 个 从 服务 器 到 客户 的 FIN 和 一 个 从 客户 到 服务 器 的 ACK〈 图 
2-$)。 至 此 ， 连 接 完全 终止 ， 客 户 套 接 字 进入 TIME_WAIT 状 态 。 

(7) 进程 终止 处 理 的 另 一 部 分 内 容 是 : 在 服务 器 子 进程 终止 时 ， 给 父 进程 发 送 一 个 SIGCHLD 
信号 。 这 一 点 在 本 例 中 发 生 了 ， 但 是 我 们 没有 在 代码 中 捕获 该 信号 ， 而 该 信号 的 默认 行为 是 被 
忽略 。 既 然 父 进程 未 加 处 理 ， 子 进程 于 是 进入 僵 死 状态 。 我 们 可 以 使 用 ps 命令 验证 这 一 点 。 


linux $ ps -t pts/6 -o pid,ppid,tty,stat,args,wchan 


PID PPID TT STAT COMMAND WCHAN 
22038 22036 pts/6 S -bash read chan 
17870 22038 pts/6 S ./tcpserv01 wait for, connect 
19315 17870 pts/6 Z [tcpserv01 <defu do exit 


子 进 程 的 状态 现在 是 z (CRIMI). 
我 们 必须 清理 僵 死 进程 ， 这 就 涉及 Unix 信 号 的 处 理 。 我 们 将 在 下 一 节 概述 信号 处 理 ， 在 下 
一 节 继 续 我 们 的 例子 。 


5.8 POSIX 信号 处 理 


信号 (signal) 就 是 告知 某 个 进程 发 生 了 某 个 事件 的 通知 ， 有 时 也 称 为 软件 中 断 (software 
interrupt)。 信 号 通常 是 异步 发 生 的 ， 也 就 是 说 进程 预先 不 知道 信号 的 准确 发 生 时 刻 。 

信号 可 以 : 

e 由 一 个 进程 发 给 另 一 个 进程 (或 自身 ); 

e 由 内 核发 给 某 个 进程 。 

十 一 节 结 尾 提 到 的 sSIGCHLD 信 号 就 是 由 内 核 在 任何 一 个 进程 终止 时 发 给 它 的 父 进程 的 一 个 
fis. 
每 个 信号 都 有 一 个 与 之 关联 的 处 置 (disposition)， 也 称 为 行为 (action)。 我 们 通过 调用 
sigaction 函 数 〈 稍 后 讨论 ) 来 设 定 一 个 信号 的 处 置 ， 并 有 三 种 选择 。 

(1) 我 们 可 以 提供 一 个 函数 ， 只 要 有 特定 信号 发 生 它 就 被 调用 。 这 样 的 函数 称 为 信号 处 理 函 
Ak (signal handler), 这 种 行为 称 为 捕获 (catching) 信 号 。 有 两 个 信号 不 能 被 捕获 ,它们 是 SIGKILL 
和 srtGSTOP。 信 号 处 理 函 数 由 信号 值 这 个 单一 的 整数 参数 来 调用 ， 且 没有 返回 值 ， 其 函数 原型 
因此 如 下 : 


void handler(int signo); 


CD 信和 号 处 理 函数 也 称 为 信号 处 理 程序 ， 这 是 相对 于 main 函 数 记 在 的 主 程序 而 言 的 。 一 一 译 者 注 
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对 于 大 多 数 信和 号 来 说 ， 调 用 sigaction 函 数 并 指定 信号 发 生 时 所 调用 的 函数 就 是 捕获 信号 所 需 
做 的 全 部 工作 。 不 过 我 们 稍 后 将 看 到 ，sIGIO、SIGPOLL 和 sIGURG 这 些 个 别 信 号 还 要 求 捕获 它 
们 的 进程 做 些 额外 工作 。 

(2) 我 们 可 以 把 某 个 信和 号 的 处 置 设 定 为 sTG_IGN 来 忽略 (ignore) 它 。SIGKILL 和 SITGSTOP 
这 两 个 信号 不 能 被 忽略 。 

(3) 我 们 可 以 把 某 个 信号 的 处 置 设 定 为 SIG_DFL 来 启用 它 的 默认 《default〉 处 置 。 默 认 处 置 
通常 是 在 收 到 信号 后 终止 进程 , 其 中 某 些 信号 还 在 当前 工作 目录 产生 一 个 进程 的 核心 映像 (core 
image， 也 称 为 内 存 影像 )。 另 有 个 别 信号 的 默认 处 置 是 忽略 ，SsIGCcHLD 和 SIGURG 〈 带 外 数据 到 
达 时 发 送 ， 见 第 24 章 ) 就 是 本 书 中 出 现 的 默认 处 置 为 忽略 的 两 个 信号 。 


signal 函数 


建立 信号 处 置 的 POSIX 方 法 就 是 调用 sigaction 函 数 。 不 过 这 有 点 复杂 ， 因 为 该 函数 的 参 
数 之 一 是 我 们 必须 分 配 并 填写 的 结构 。 简 单 些 的 方法 就 是 调用 signal 函 数 ， 其 第 一 个 参数 是 信 
号 名 ， 第 二 个 参数 或 为 指向 函数 的 指针 ， 或 为 常 值 SIG_IGN 或 SIG_DFL。 然 而 signal 是 早 于 
POSIX 出 现 的 历史 悠久 的 函数 。 调 用 它 时 ， 不 同 的 实现 提供 不 同 的 信号 语义 以 达成 后 向 兼容 ， 
而 POSIX 则 明确 规定 了 调用 sigaction 时 的 信号 语义 。 我 们 的 解决 办 法 是 定义 自己 的 signal 函 
数 ， 它 只 是 调用 POSIX 的 sigaction 函 数 。 这 就 以 所 期 望 的 POSIX 语 义 提供 了 一 个 简单 的 接口 。 
我 们 把 该 函数 以 及 早先 讲 过 的 err_XXX 函 数 和 包 庄 函数 等 一 道 包 含 在 自己 的 函数 库 中 ， 而 这 个 
函数 库 在 我 们 构造 本 书 中 的 程序 时 指定 。? 该 函数 如 图 5-6 所 示 。( 我 们 没有 给 出 它 的 包 训 函数 
Signal， 因 为 不 论 它 调 用 本 函数 还 是 厂家 提供 的 signal 函 数 ， 效 果 都 是 一 样 的 。) 








lib/signal.c 
1 finclude "unp.h" 
2 Sigfunc * 
3 signal(int signo, Sigfunc *func) 
4{ 
5 struct sigactionact, oact; 
6 act.sa handler - func; 
7 sigemptyset(&act.sa mask); 
8 act.sa flags - 0; 
9 if (signo == SIGALRM) ( 
10 fifdef SA INTERRUPT 
11 act.sa flags |= SA INTERRUPT; /* SunOS 4.x */ 
12 #endif 
13 ) else ( 
14 #ifdef SA RESTART 
15 act.sa flags |= SA RESTART; /* SVR4, 4.4BSD */ 
16 #endif 
17 } 
18 if (sigaction(signo, &act, &oact) < 0) 
19 return (SIG_ERR) ; 
20 return (oact.sa_handler) ; 
21 ) 
lib/signal.c 


图 5-6 ”调用 POSIX sigaction 函 数 的 signal 函 数 


© 构造 程序 是 指使 用 make 工 具 把 源 程序 和 /或 目标 程序 编译 链接 成 可 执行 程序 。 本 书 随意 可 得 的 源 代码 ( 见 前 言 ) 


提供 了 构造 其 中 各 个 程序 的 makefile 文 件 。 一 一 译 者 注 
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用 typedef 简 化 函数 原型 
2-3 ”函数 signal 的 正常 函数 原型 因 层 次 太 多 而 变 得 很 复杂 : 
void (*signal(int signo, void (*func) (int))) (int); 


为 了 简化 起 见 ， 我 们 在 头 文件 unp .h 中 定义 了 如 下 的 Sigfunc 类 型 : 
typedef void Sigfunc(int); 
它 说 明 信 和 号 处 理 函 数 是 仅 有 一 个 整数 参数 且 不 返回 值 的 函数 。signal 的 函数 原型 于 是 变 为 : 
Sigfunc *signal(int signo, Sigfunc *func); 
该 函数 的 第 二 个 参数 和 返回 值 都 是 指向 信号 处 理 函 数 的 指针 。 
设置 处 理 函 数 
6 sigaction 结 构 的 sa_handler 成 员 被 置 为 func 参 数 。 
设置 处 理 函 数 的 信号 掩 码 
7 ”POSIX 人 允许 我 们 指定 这 样 一 组 信号 ， 它 们 在 信号 处 理 函 数 被 调用 时 阻塞 。“ 任 何 阻塞 的 
信号 都 不 能 递交 (delivering) 给 进程 。 我 们 把 sa_mask 成 员 设置 为 空 集 ， 意 味 着 在 该 
信号 处 理 函 数 运 行 期 间 ， 不 阻塞 额外 的 信号 。POSIX 保 证 被 捕获 的 信号 在 其 信号 处 理 
函数 运行 期 间 总 是 阻塞 的 。 
设置 SA_RESTART 标 志 
8-17 ”SA_RESTART 标 志 是 可 选 的 。 如果 设 置 , 由 相应 信号 中 断 的 系统 调用 将 由 内 核 自动 重启 。 
(我 们 将 在 下 一 节 继 续 上 一 节 的 例子 时 详细 讨论 被 中 断 的 系统 调用 。) 如 果 被 捕获 的 信 
号 不 是 SIGALRM 且 Sa_RESTART 有 定义 ， 我 们 就 设置 该 标志 。( 对 SITGALRM 进 行 特殊 处 理 
的 原因 在 于 : 产生 该 信号 的 目的 正如 14.2 节 将 讨论 的 那样 ， 通 常 是 为 UO 操 作 设置 超时 ， 
这 种 情况 下 我 们 希望 受阻 塞 的 系统 调用 被 该 信号 中 断 掉 。) 一 些 较 早 期 的 系统 (如 SunOS 
4x) 默认 设置 成 自动 重启 被 中 断 的 系统 调用 ， 并 定义 了 与 SA_RESTRART 互 补 的 
SA_INTERRUPT 标 志 。 如 果 定 义 了 该 标志 ， 我 们 就 在 被 捕获 的 信号 是 SITGALRM 时 设置 它 。 
调用 sigaction 函 数 
18-20 ”我 们 调用 sigaction 函 数 ， 并 将 相应 信号 的 旧 行 为 作为 signal 函 数 的 返回 值 。 
本 书 通 篇 使 用 图 $-6 的 signal 函 数 。 


POSIX 信号 语义 


我 们 把 符合 POSIX 的 系统 上 的 信号 处 理 总 结 为 以 下 几 点 。 

e 一 旦 安装 了 信号 处 理 函 数 ， 它 便 一 直 安 装着 〈 较 早期 的 系统 是 每 执行 一 次 就 将 其 拆除 )。 

e 在 一 个 信号 处 理 函 数 运行 期 间 ， 正 被 递交 的 信号 是 阻塞 的 。 而 且 ， 安 装 处 理 函数 时 在 传 
递 给 sigaction 函 数 的 sa_mask 信 和 号 集中 指定 的 任何 额外 信号 也 被 阻塞 。 在 图 5-6 中 ， 我 
们 将 sa_mask 置 为 空 集 ， 意 味 着 除了 被 捕获 的 信号 外 ， 没 有 额外 信和 号 被 阻塞 。 

e 如 果 一 个 信号 在 被 阻塞 期 间 产 生 了 一 次 或 多 次 ， 那 么 该 信和 号 被 解 阻塞 之 后 通常 只 递交 一 
次 ， 也 就 是 说 Unix 信 和 号 默认 是 不 排队 的 。 我 们 将 在 下 一 节 查 看 这 样 的 一 个 例子 。POSIX 


O 这 里 的 阻塞 不 同 于 我 们 此 前 -~ 直 使 用 的 同名 词 。 这 里 的 阻塞 是 指 阻塞 某 个 信和 号 或 某 个 信号 集 ， 防 止 它们 在 阻塞 
期 间 递交 〈delivering)。 它 的 反 操 作 称 为 解 阻塞 。 而 此 前 一 直 使 用 的 阻塞 是 指 阻塞 在 某 个 系统 调用 上 ， 也 就 是 说 
这 个 系统 调用 因为 日 前 没有 必要 资源 可 用 而 必须 等 待 ， 直 到 这 些 资 源 变 为 可 用 后 才 可 能 返回 。 等 待 期 间 进程 进 
入 睡眠 状态 。 与 它 相对 的 概念 是 非 阻塞 ， 也 就 是 说 非 阻塞 的 系统 调用 即使 没有 必要 资源 可 用 也 立即 返回 ， 不 过 
会 告诉 调用 者 发 生 了 这 种 和 情况， 这样 调用 者 可 以 继续 调用 同一 个 系统 调用 。 一 一 译 者 注 
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实时 标准 1003.lb 定 义 了 一 些 排队 的 可 靠 信号 ， 不 过 本 书 中 我 们 不 使 用 。 
e 利用 sigprocmask 函 数 选 择 性 地 阻塞 或 解 阻 塞 一 组 信号 是 可 能 的 。 这 使 得 我 们 可 以 做 到 
在 一 段 临 界 区 代码 执行 期 间 ， 防 止 捕获 某 些 信号 ， 以 此 保护 这 段 代 码 。 
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HEI (zombie) 状态 的 目的 是 维护 子 进程 的 信息 ， 以 便 父 进程 在 以 后 某 个 时 候 获 取 。 
这 些 信息 包括 子 进程 的 进程 ID、 终 止 状态 以 及 资源 利用 信息 〈CPU 时 间 、 内 存 使 用 量 等 等 )。 如 
果 - -个 进程 终止 ， 而 该 进程 有 子 进 程 处 于 僵 死 状态 ， 那 么 它 的 所 有 候 死 子 进程 的 父 进 程 ID 将 被 
重 置 为 1 (init 进 程 )。 继 承 这 些 子 进程 的 jnit 进 程 将 清理 它们 (也 就 是 说 init 进 程 将 wait 它 
们 ， 从 而 去 除 它们 的 价 死 状态 )。 有 些 Unix 系 统 在 ps 命令 输出 的 COMMAND 栏 以 <aefunct> 指 
明 伪 死 进程 。 


处 理 僵 死 进程 


我 们 显然 不 愿意 留存 僵 死 进程 。 它 们 占用 内 核 中 的 空间 , 最 终 可 能 导致 我 们 耗 尽 进程 资源 。 
无 论 何 时 我 们 fork 子 进程 都 得 wait 它 们 ， 以 防 它们 变 成 优 死 进程 。 为 此 我 们 建立 一 个 俘获 
SIGCHLD 信 号 的 信号 处 理 函 数 ， 在 函数 体 中 我 们 调用 wait。( 我 们 将 在 5.10 节 介绍 wait 和 
waitpid.) 通过 在 图 5-2 所 示 代 码 的 1isten 调 用 之 后 增加 如 下 函数 调用 : 

Signal(SIGCHLD, sig chld); 
我 们 就 建立 了 该 信号 处 理 函 数 。( 这 必须 在 fork 第 一 个 子 进程 之 前 完成 ， 且 只 做 一 次 。) 我 们 接 
着 定义 名 为 sig_chld 的 这 个 信号 处 理 函 数 ， 如 图 5-7 所 示 。 








- tcpcliserv/sigchldwait.c 
1 #include “unp.h" a 
2 void 
3 sig .chld(int signo) 
4 { 
5 pid_t pid; 
6 int stat; 
7 pid - wait(&stat); 
8 printf("child $d terminated\n", pid); 
9 return; 
10 ) 


— — —tcpcliserv/'sigchldwait.c 


图 5-7 调用 wait 的 srccHLD 信 号 处 理 函数 (在 图 5-11 中 会 有 所 改进 》 


警告 : 在 信号 处 理 函 数 中 调用 诸如 printf 这 样 的 标准 IO 函数 是 不 合适 的 ， 其 原因 将 在 
11.18 节 讨论 。 我 们 在 这 里 调用 printf 只 是 作为 查看 子 进程 何 时 终止 的 诊断 手段 . 

在 System V 和 Unix 98 标 准 下 ， 如 果 一 个 进程 把 SIGCHLD 的 处 置 设 定 为 STG_IGN， 它 的 子 
进程 就 不 会 变 为 僵 死 进程 。 不 幸 的 是 ， 这 种 做 法 仅仅 适用 于 System V 和 Unix 98， 而 POSIX 明 
确 表 示 没 有 规定 这 样 做 。 处 理 僵 死 进程 的 可 移植 方法 就 是 捕获 SIGCHLD， 并 调用 wait 或 


waitpid. 
在 Solaris 9 下 如 此 编译 本 程序 ， 以 图 5-2 中 代码 为 基础 ， 加 上 对 signal 的 调用 以 及 我 们 的 


sig_chld 信 息 处 理 函数 ， 而 且 所 用 的 signal 函 数 来 自 系统 自 带 的 函数 库 〈 而 不 是 图 $-6 中 的 版 
本 )。 我 们 将 有 如 下 结果 : 
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solaris % tcpserv02 & 在 后 台 启 动 服务 器 

[2] 16939 

solaris $ tcpcli01 127.0.0.1 再 在 前 台 启 动 客户 

hi there 我 们 键入 这 一 行 

hi there 这 一 行 被 回 射 问 来 

^D 我 们 键入 EOF 字 符 

child 16942 terminated 这 是 信号 处 理 函 数 中 printf 的 输出 
accept error: Interrupted system call 然而 main 函 数 中 止 执行 
具体 的 各 个 步骤 如 下 : 


(1) 我 们 键入 EOF 字 符 来 终止 客户 。 客 户 TCP 发 送 一 个 FIN 给 服务 器 ， 服 务 器 响应 以 一 个 
ACK。 

(2) 收 到 客户 的 FIN 导 致 服务 器 TCP 递 送 一 个 EOF 给 子 进程 阻 寒 中 的 readlirne， 从 而 子 进程 
终止 。 

(3) 当 STGCHLD 信 和 号 递交 时 ， 父 进程 阻塞 于 accept 调 用 。sig_chld 函 数 〈 信 号 处 理 函 数 ) 
执行 ， 其 wait 调 用 取 到 子 进程 的 PID 和 终止 状态 ， 随 后 是 printf 调 用 ， 最 后 返回 。 

(4) 既然 该 信号 是 在 父 进程 阻塞 于 慢 系统 调 用 (accept) 时 由 父 进 程 捕获 的 ， 内 核 就 会 使 
accept 返 回 一 个 EINTR 错 误 (被 中 断 的 系统 调用 )。 而 父 进 程 不 处 理 该 错误 (图 5-2), 于 是 中 止 。 

这 个 例子 是 为 了 说 明 ， 在 编写 捕获 信和 号 的 网 络 程序 时 ， 我 们 必须 认 清 被 中 断 的 系统 调用 且 
处 理 它们 。 在 这 个 运行 在 Solaris 9 环境 下 特定 例子 中 ,标准 C 函 数 库 中 提供 的 signal 函 数 不 会 使 
内 核 自 动 重 启 被 中 断 的 系统 调用 。 也 就 是 说 ， 我 们 在 图 $-6 中 设置 的 sa_RESTART 标 志 在 系 统 函 
数 库 的 signal 函 数 中 并 没有 设置 。 另 有 些 系统 自动 重启 被 中 断 的 系统 调用 。 如 果 我 们 在 4.4BSD 
环境 下 照样 使 用 系统 函数 库 版 本 的 signal 函 数 运行 上 述 例子 ， 那 么 内 核 将 重启 被 中 断 的 系统 调 
用 ， 于 是 accept 不 会 返回 错误 。 我 们 定义 自己 的 signal 函 数 (图 $-6) 并 在 贯穿 全 书 使 用 的 理 
由 之 一 就 是 应 对 不 同 操作 系统 之 间 的 这 个 潜在 问题 。 

作为 本 书 使 用 的 编程 约定 之 一 , 我 们 总 是 在 信号 处 理 函 数 中 显 式 给 出 return 语 句 (图 $-7)， 
即使 对 于 返回 值 类 型 为 void 的 信号 处 理 函 数 而 言 , 从 函数 结尾 处 掉 出 和 执行 return 语 名 效果 是 
一 样 的 ， 我 们 也 还 是 为 其 使 用 return 语 句 。 这 么 一 来 ， 当 某 个 系统 调用 被 我 们 编写 的 某 个 信号 
处 理 函 数 中 断 时 ， 我 们 就 可 以 得 知 该 系统 调用 具体 是 被 哪个 信号 处 理 函 数 的 哪个 return 语 句 中 
断 的 。 


处 理 被 中 断 的 系统 调用 


我 们 用 术语 慢 系 统 调用 (slow system call) 描述 过 accept 函数 ， 该 术语 也 适用 于 那些 可 能 
永远 阻塞 的 系统 调用 。 永 远 阻塞 的 系统 调用 是 指 调用 有 可 能 永远 无 法 返回 ， 多 数 网 络 支 持 函 数 
都 属于 这 一 类 。 举 例 来 说 ， 如 果 没 有 客户 连接 到 服务 器 上 ， 那 么 服务 器 的 accept 调 用 就 没有 返 
回 的 保证 。 类 似 地 ， 在 图 5-3 中 ， 如 果 客 户 从 未 发 送 过 一 行 要 求 服务 器 回 射 的 文本 ， 那 么 服务 器 
的 zeaq 调 用 将 永 不 返回 。 其 他 慢 系 统 调用 的 例子 是 对 管道 和 终端 设备 的 读 和 写 。 一 个 值得 注意 
的 例外 是 磁盘 WO， 它 们 一 般 都 会 返回 到 调用 者 (假设 没有 灾难 性 的 硬件 故障 )。 

适用 于 慢 系 统 调用 的 基本 规则 是 ， 当 阻塞 于 某 个 慢 系 统 调用 的 一 个 进程 捕获 某 个 信号 且 相 
应 信和 号 处 理 函 数 返 回 时 ， 该 系统 调用 可 能 返回 一 个 EINTR 错 误 。 有 些 内 核 自 动 重启 某 些 被 中 断 
的 系统 调用 。 不 过 为 了 便于 移植 ， 当 我 们 编写 捕获 信号 的 程序 时 (多数 并 发 服务 器 捕获 
SIGCHLD), 我 们 必须 对 慢 系 统 调用 返回 EINTR 有 所 准备 。 移植 性 问题 是 由 早期 使 用 的 修饰 词 “ 可 
能 ”“ 有 些 ” 和 对 POSIX 的 SA_RESTART 标 志 的 支持 是 可 选 的 这 一 事实 造成 的 。 即 使 某 个 实现 支 
持 sa_RESTART 标 志 ， 也 并 非 所 有 被 中 断 系统 调用 都 可 以 自动 重启 。 举 例 来 说 ， 大 多 数 源 自 
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Berkeley 的 实现 从 不 自动 重启 select， 其 中 有 些 实 现 从 不 重启 accept 和 recvfrom。 
为 了 处 理 被 中 断 的 accept, 我们 把 图 5-2 中 对 accept 的 调用 从 for 循 环 开始 改 起 , 如 下 所 示 : 


for (.: 5) I 
clilen = sizeof (cliaddr); 
if ( (connfd = accept (listenfd, (SA *) &cliaddr, &clilen)) < 0) ( 
if (errno -- EINTR) 
continue; /* back to for() */ 
else 


err sys("accept error"); 
} 


注意 , 我 们 调用 的 是 accept 函 数 本 身 而 不 是 它 的 包 囊 函数 Accept,， 因为 我 们 必须 自己 处 理 
该 函数 的 失败 情况 。 

这 段 代码 所 做 的 事情 就 是 自己 重启 被 中 断 的 系统 调用 。 对 于 accept 以 及 诸如 read、 write, 
select 和 open 之 类 函数 来 说 ， 这 是 合适 的 。 不 过 有 一 个 函数 我 们 不 能 重启 : connect。 如 果 该 
函数 返回 EINTR， 我 们 就 不 能 再 次 调用 它 ， 和 否则 将 立即 返回 一 个 错误 。 当 connect 被 一 个 捕获 的 
信号 中 断 而 且 不 自动 重启 〈TCPv2 第 466 页 ) 时 ， 我 们 必须 调用 select 来 等 待 连接 完成 ， 如 16.3 
节 所 述 。 
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5.10 wait 和 waitpid BA 


在 图 5-7 中 ， 我 们 调用 了 函数 wait 来 处 理 已 终止 的 子 进程 。 


#include <sys/wait.h> 





pid t wait(int *statloc); 


pid t waitpid(pid t pid, int *statloc, int options); 


均 返 回 : 若 成 功 则 为 进程 ID， 若 出 错 则 为 0 或 -1 





函数 wait 和 waitpid 均 返回 两 个 值 : 已 终止 子 进程 的 进程 ID 号 ， 以 及 通过 statioc 指 针 返 回 
的 子 进程 终止 状态 (一 个 整数 )。 我们 可 以 调用 三 个 宏 来 检查 终止 状态 ， 并 辨别 子 进 程 是 正常 终 
止 、 由 某 个 信号 杀 死 还 是 仅仅 由 作业 控制 停止 而 已 。 另 有 些 宏 用 于 接着 获取 子 进 程 的 退出 状态 、 
杀 死 子 进程 的 信号 值 或 停止 子 进程 的 作业 控制 信号 值 。 在 图 15-10 中 ， 我 们 将 为 此 目的 使 用 宏 
WIFEXITED 和 WEXITSTATUS。 

如 果 调 用 wait 的 进程 没有 已 终止 的 子 进程 ,不 过 有 一 个 或 多 个 子 进程 仍 在 执行 ， 那么 wait 
将 阻塞 到 现 有 子 进程 第 一 个 终止 为 止 。 

waitpig 函 数 就 等 待 哪 个 进程 以 及 是 否 阻 塞 给 了 我 们 更 多 的 控制 。 首 先 ，pid 参 数 允 许 我 们 
指定 想 等 待 的 进程 ID， 值 -1 表示 等 待 第 一 个 终止 的 子 进程 。( 另 有 一 些 处 理 进程 组 ID 的 可 选 值 ， 
不 过 本 书 中 用 不 上 。) 其 次 ，options 参 数 允 许 我 们 指定 附加 选项 。 最 常用 的 选项 是 wNOHANG， 它 
告知 内 核 在 没有 已 终止 子 进 程 时 不 要 阻塞 。 


函数 wait 和 waitpid 的 区 别 


我 们 现在 图 示 出 函数 wait 和 waitpia 在 用 来 清理 已 终止 子 进程 时 的 区 别 ,为 此 , 我 们 把 TCP 
客户 程序 修改 为 如 图 5-9 所 示 。 客 户 建立 5 个 与 服务 器 的 连接 ， 随 后 在 调用 str_cli 函 数 时 仅 用 
第 一 个 连接 (sockfa[0] )。 建 立 多 个 连接 的 目的 是 从 并 发 服务 器 上 派生 多 个 子 进程 ， 如 图 5-8 
Bim. 


5.10 wait e waitpid H4k 109 


客户 











图 5-8 与 同一 个 并 发 服务 器 建立 了 5 个 连接 的 客户 





tcpcliserv/tcpcli04.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 í 
5 int i, sockfd[5]; 
6 struct sockaddr in servaddr; 
7 if (argc != 2) 
8 err quit("usage: tcpcli <IPaddress>"); 
9 for (i = 0; i < 5; i++) ( 
10 sockfd[i] = Socket (AF_INET, SOCK_STREAM, 0); 
11 bzero(&servaddr, sizeof (servaddr) ); 
12 servaddr.sin family = AF INET; 
13 servaddr.sin port = htons(SERV, PORT); 
14 Inet pton(AF INET, argv(1], &servaddr.sin addr); 
15 Connect(sockfd[i], (SA *) &servaddr, sizeof(servaddr)); 
16 ) 
17 str cli(stdin, sockfód[0]); /* do it all */ 
18 exit(0); 
19 ) 
tcpcliserv/tepcli04.c 





图 $-9 与 服务 器 建立 了 5 个 连接 的 TCP 客 户 程 序 


当 客 户 终止 时 ， 所 有 打开 的 描述 符 由 内 核 自动 关闭 《我 们 不 调用 close， 仅 调用 exit)， 且 
所 有 5 个 连接 基本 在 同一 时 刻 终止 。 这 就 引发 了 5 个 FIN， 每 个 连接 一 个 ， 它 们 反 过 来 使 服务 器 
的 5 个 子 进程 基本 在 同一 时 刻 终止 。 这 又 导致 差不多 在 同一 时 刻 有 5 个 sSIGCHLD 信 号 递交 给 父 进 
程 ， 如 图 5-10 所 示 。 














图 5-10 ”客户 终止 ， 关 闭 5 个 连接 ， 终 止 5 个 子 进程 
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正 是 这 种 同一 信号 多 个 实例 的 递交 造成 了 我 们 即将 查看 的 问题 。 
我 们 首先 在 后 台 运 行 服务 器 ， 接 着 运行 新 的 客户 。 我 们 的 服务 器 程序 由 图 5-2 修 改 而 来 ， 它 
调用 signal 函 数 ， 把 图 $-7 中 的 函数 建立 为 SIGCHLD 的 信号 处 理 函 数 。 


linux % tcpserv03 & 


(1] 20419 

linux % tcpcli04 127.0.0.1 

hello 我 们 键入 这 一 行 
hello 这 一 行 被 回 射 回来 
^D 我 们 再 键入 EOF 字 符 
child 20426 terminated 这 是 服务 器 的 输出 


我 们 注意 到 的 第 一 件 事 是 只 有 一 个 printf 输 出 ,而 当时 我 们 预期 所 有 5 个 子 进程 都 终止 了 。 
如 果 运 行 ps， 我 们 将 发 现 其 他 4 个 子 进程 仍然 作为 伪 死 进程 存在 着 。 


PTD TTY TIME COM 
20419 pts/6 00:00:00 tcpserv03 
20421 pts/6 00:00:00 tcpserv03 «defunct» 
20422 pts/6 00:00:00 tcpserv03 «defunct» 
20423 pts/6 00:00:00 tcpserv03 «defunct» 


建立 一 个 信和 号 处 理 函 数 并 在 其 中 调用 wait 并 不 足以 防止 出 现 僵 死 进程 。 本 问题 在 于 : 所 有 
5 个 信号 都 在 信号 处 理 函 数 执行 之 前 产生 , 而 信号 处 理 函 数 只 执行 一 次 , 因为 Unix 信 号 一 般 是 不 
排队 的 。 更 严重 的 是 ， 本 问题 是 不 确定 的 。 在 我 们 刚刚 运行 的 例子 中 ， 客 户 与 服务 器 在 同一 个 
主机 上 ， 信 和 号 处 理 函 数 执行 1 次 ， 留 下 4 个 僵 死 进程 。 但 是 如 果 我 们 在 不 同 的 主机 上 运行 客户 和 
服务 器 ， 那 么 信号 处 理 函 数 一 般 执行 2 次 : 一 次 是 第 一 个 产生 的 信号 引起 的 ， 由 于 另外 4 个 信和 号 
在 信号 处 理 函 数 第 一 次 执行 时 发 生 , 因此 该 处 理 函 数 仅仅 再 被 调用 一 次 , 从 而 留 下 3 个 僵 死 进程 。 
不 过 有 的 时 候 ， 依 赖 于 FIN 到 达 服 务 器 主机 的 时 机 ， 信 和 号 处 理 函 数 可 能 会 执行 3 次 甚至 4 次 。 

正确 的 解决 办 法 是 调用 waitpia 而 不 是 wait， 图 5-11 给 出 了 正确 处 理 SIGCHLD 的 sig_ch1la 函 
数 。 这 个 版 本 管用 的 原因 在 于 : 我 们 在 一 个 循环 内 调用 waitpia， 以 获取 所 有 已 终止 子 进程 的 状 
态 。 我 们 必须 指定 wNOHANG 选 项 ， 它 告知 waitpid 在 有 尚未 终止 的 子 进程 在 运行 时 不 要 阻塞 。 我们 
在 图 5- 7 中 不 能 在 循环 内 调用 wait， 因 为 没有 办 法 防止 wait 在 正 运行 的 子 进程 尚 有 未 终止 时 阻塞 。 


—— ——— tcpcliserv/sigchldwaitpid.c 

















1 #include "unp.h" 

2 void 

3 sig chld(int signo) 

4 { 

pid t pid; 

int stat; 

while ( (pid - waitpid(-1, &stat, WNOHANG)) » 0) 
printf("child %d terminated\n", pid); 

return; 


owon awn 








tcpcliserv/sigchldwaitpid.c 
图 5-11 调用 waitpia 函 数 的 sig_chla 函 数 最 终 CEM) 版 本 

图 5-12 给 出 了 我 们 的 服务 器 程序 的 最 终 版 本 。 它 正确 处 理 accept 返 回 的 EINTR， 并 建立 一 
个 给 所 有 已 终止 子 进程 调用 waitpia 的 信和 号 处 理 函 数 〈 图 5-11)。 

本 节 的 目的 是 示范 我 们 在 网 络 编程 时 可 能 会 遇 到 的 三 种 情况 ; 

(1) 当 fork 子 进程 时 ， 必 须 捕 获 SIGCHLD 信 号 ; 

(2) 当 捕 获 信号 时 ， 必 须 处 理 被 中 断 的 系统 调用 ; 

(3) SIGCHLD 的 信号 处 理 函 数 必须 正确 编写 ， 应 使 用 waitpid 函 数 以 免 留 下 从 死 进程 。 
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一 一 - tcpcliserv/tepserv04.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int listenfd, connfd; 
6 pid_t childpid; 
7 socklen_t clilen; 
8 struct sockaddr_in cliaddr, servaddr; 
3 void sig chld(int); 
10 listenfd - Socket(AF INET, SOCK STREAM, 0); 
11 bzero(&servaddr, sizeof(servaddr)); 
12 servaddr.sin family = AF, INET; 
13 servaddr.sin addr.s, addr = htonl(INADDR ANY); 
14 servaddr.sin port - htons(SERV PORT); 
15 Bind(listenfd, (SA *) &servaddr, sizeof(servaddr)); 
16 Listen(listenfd, LISTENQ); 
17 Signal(SIGCHLD, sig chld); /* must call waitpid() */ 
18 for (: : ) ( 
19 clilen = sizeof(cliaddr); 
20 if ( (connfd = accept(listenfd, (SA *) &cliaddr, &clilen)) < 0) ( 
21 if (errno -- EINTR) 
22 continue; /* back to for() */ 
23 else 
24 err sys("accept error"); 
25 } 
26 if ( (childpid = Fork()) == 0) ( /* child process */ 
27 Close(listenfd) ; /* close listening socket */ 
28 str echo(connfd) ; /* process the request */ 
29 exit(0); 
30 ) 
3i Close (connfd); /* parent closes connected socket */ 
32 ) 
33 ) 
tcpcliserv/tcpserv04.c 


图 $-12 ”处 理 accept 返 回 ETNTR 错 误 的 TCP 服 务 器 程序 最 终 〈 正 确 ) 版 本 


我 们 的 TCP 服 务 器 程序 最 终 版 本 (图 $-12) 加 上 图 $-11 的 sTGcHLD 信 和 号 处 理 函 数 能 够 处 理 上 
述 三 种 情况 。 
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类 似 于 前 一 节 中 介绍 的 被 中 断 系 统 调用 的 例子 , 男 有 一 种 情形 也 能 够 导致 accept 返 回 一 个 
非 致 命 的 错误 ， 在 这 种 情况 下 ， 只 需要 再 次 调用 accept。 图 $-13 中 所 示 的 分 组 序列 在 较 忙 的 服 
务 器 (典型 的 是 较 忙 的 Web 服 务 器 ) 上 已 出 现 过 。 

这 里 ， 三 路 握手 完成 从 而 连接 建立 之 后 ， 客 户 TCP 却 发 送 了 一 个 RST〈 复 位 )。 在 服务 器 端 
看 来 ， 就 在 该 连接 已 由 TCP 排 队 ， 等 着 服务 器 进程 调用 accept 的 时 候 RST 到 达 。 稍 后 ， 服 务 器 
进程 调用 accept。 

模拟 这 种 情形 的 一 个 简单 方法 就 是 : 启动 服务 器 ， 让 它 调用 socket、bind 和 1isten， 
然后 在 调用 accept 之 前 睡眠 一 小 段 时 间 。 在 服务 器 进程 睡眠 时 ， 启动 客户 , 让 它 调用 socket 
和 connect。 一 旦 connect 返 回 ， 就 设置 SO_LINGER 套 接 字 选 项 以 产生 这 个 RST ( 我们 将 在 
7.5 节 讨论 该 套 接 字 选 项 ， 并 在 图 16-21 中 给 出 一 个 例子 ) ， 然 后 终止 。 
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客户 


器 
Socket,bind,listen 
socket LISTEN 〈 被 动 打开 ) 


connect (SAI) SYN 
a mmm 


connectj& [B] 


Ela ume 


调用 accept 
图 $-13 ESTABLISHED 状 态 的 连接 在 调用 accept 之 前 收 到 RST 


但 是 ， 如 何 处 理 这 种 中 止 的 连接 依赖 于 不 同 的 实现 。 源 自 Berkeley 的 实现 完全 在 内 核 中 处 
理 中 止 的 连接 ， 服 务 器 进程 根本 看 不 到 。 然 而 大 多 数 SVR4 实 现 返回 一 个 错误 给 服务 器 进程 ， 作 
为 accept 的 返回 结果 ， 不 过 错误 本 身 取决 于 实现 。 这 些 SVR4 实 现 返回 一 个 EPROTO ("protocol 
error”, 协议 错误 )errno 值 , 而 POSIX 指 出 返回 的 errno 值 必须 是 ECONNABORTED(“software caused 
connection abort”， 软 件 引 起 的 连接 中 止 )。POSIX 作 出 修改 的 理由 在 于 : 流 子 系统 (streams 
subsystem》 中 发 生菜 些 致命 的 协议 相关 事件 时 ， 也 会 返回 EPROTO。 要 是 对 于 由 客户 引起 的 一 个 
已 建立 连接 的 非 致 命中 止 也 返回 同样 的 错误 ， 那么 服务 器 就 不 知道 该 再 次 调用 accept 还 是 不 该 
了 。 换 成 ECONNABORTED 错 误 ， 服 务 器 就 可 以 忽略 它 ， 再 次 调用 accept 就 行 。 


源 自 Berkeley 的 内 核 从 不 把 该 错误 传递 给 进程 的 做 法 所 涉及 的 步骤 在 TCPv2 中 得 到 阐述 . 
引发 该 错误 的 RST 在 第 964 页 得 到 处 理 ， 导 致 kcp_close 被 调用 。 该 函数 在 第 897 页 调用 
in_pcbdetach， 它 又 转 而 在 第 719 页 调用 sofree。sofree 函 数 (第 473 页 ) 发 现 待 中 止 的 连 
接 仍 在 监听 套 接 字 的 已 完成 连接 队列 中 ， 于 是 从 该 队列 中 删除 该 连接 ， 并 释放 相应 的 已 连接 
套 接 字 。 当 服务 器 最 终 调用 accept 函 数 时 ， 它 根本 不 知道 曾经 有 一 个 已 完成 的 连接 稍 后 被 从 
已 完成 连接 队列 中 删除 了 。 


在 16.6 节 我 们 将 再 次 回 到 这 些 中 止 的 连接 ， 查 看 在 与 select 函 数 和 正常 阻塞 模式 下 的 监听 
套 接 字 组 合 时 它们 是 如 何 成 为 问题 的 。 


OT ee OE OT om AS AES EEEE. tAE a ee A 


5.12 服务 器 进程 终止 。 


现在 启动 我 们 的 客户 /服务 器 对 ,然后 杀 死 服务 器 子 进程 。 这 是 在 模拟 服务 器 进程 裔 省 的 情 
形 ， 我 们 可 从 中 查看 客户 将 发 生 什么 。( 我 们 必须 小 心 区 别 即 将 讨论 的 服务 器 进程 崩溃 与 将 在 
5.14 节 讨论 的 服务 器 主机 崩溃 。》 所 发 生 的 步骤 如 下 所 述 。 

(1) 我 们 在 同一 个 主机 上 启动 服务 器 和 客户 ， 并 在 客户 上 键入 一 行文 本 ， 以 验证 一 切 正 常 。 
正常 情况 下 该 行文 本 由 服务 器 子 进程 回 射 给 客户 。 

(2) 找到 服务 器 子 进程 的 进程 ID， 并 执行 kil1 命 令 杀 死 它 。 作 为 进程 终止 处 理 的 部 分 工作 ， 
子 进程 中 所 有 打开 着 的 描述 符 都 被 关闭 。 这 就 导致 向 客户 发 送 一 个 FIN, 而 客户 TCP 则 响应 以 一 
个 ACK。 这 就 是 TCP 连 接 终止 工作 的 前 半 部 分 。 

(3) SIGCHLD 信 号 被 发 送 给 服务 器 父 进 程 ， 并 得 到 正确 处 理 ( 图 5-12)。 

(4) 客户 上 没有 发 生 任 何 特殊 之 事 。 客户 TCP 接 收 来 自 服务 器 TCP 的 FIN 并 响应 以 一 个 ACK， 
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然而 问题 是 客户 进程 阻塞 在 fgets 调 用 上 ， 等 待 从 终端 接收 一 行文 本 。 
(5) 此 时 ， 在 另外 一 个 窗口 上 运行 net stat 命 令 ， 以 观察 套 接 字 的 状态 。 


linux $ netstat -a | grep 9877 

tcp 0 0 *:9877 be LISTEN 

tcp 0 0 localhost :9877 localhost:43604 FIN WAIT2 
tcp 1 0 localnost:43604 localhost:9877 CLOSE WAIT 


参照 图 2-4， 我 们 看 到 TCP 连 接 终止 序列 的 前 半 部 分 已 经 完成 。 
(6) 我 们 可 以 在 客户 上 再 键入 一 行文 本 。 以 下 是 从 第 一 步 开 始 发 生 在 客户 之 事 : 


linux $ tcpcli01 127.0.0.1 启动 客户 
hello 键入 第 一 行文 本 
hello 它 被 正确 回 射 
在 这 儿 杀 死 服 务 器 子 进程 
another line 然后 键入 下 一 行文 本 


str_cli: server terminated prematurely 
当 我 们 键入 “another line” 时 ，str_cli 调 用 writen， 客 户 TCP 接 着 把 数据 发 送 给 服务 器 。 
TCP 人 允许 这 么 做 ， 因 为 客户 TCP 接 收 到 FIN 只 是 表示 服务 器 进程 已 关闭 了 连接 的 服务 器 端 ， 从 而 
不 再 往 其 中 发 送 任何 数据 而 已 。 FIN 的 接收 并 没有 告知 客户 TCP 服 务 器 进程 已 经 终止 (本 例子 中 
它 确实 是 终止 了 )。 在 6.6 节 讨论 TCP 的 半 关 闭 时 我 们 将 再 次 论述 这 一 点 。 
当 服 务 器 TCP 接 收 到 来 自 客户 的 数据 时 ， 既 然 先 前 打开 那个 套 接 字 的 进程 已 经 终止 ， 于 是 
响应 以 一 个 RST。 通 过 使 用 tcpdump 来 观察 分 组 ， 我 们 可 以 验证 该 RST 确 实 发 送 了 。 
(7) 然而 客户 进程 看 不 到 这 个 RST， 因 为 它 在 调用 writen 后 立即 调用 readline， 并 且 由 于 
第 2 步 中 接收 的 FIN， 所 调用 的 readline 立 即 返 回 0 (表示 EOF)。 我 们 的 客户 此 时 并 未 预期 收 到 
EOF 〈 图 $-5)， 于 是 以 出 错 信息 “server terminated prematurely”( 服 务 器 过 早 终止 ) 退出 。 
(8) 当 客 户 终 止 时 (通过 调用 图 5-5 中 的 err_quit )， 它 所 有 打开 着 的 描述 符 都 被 关闭 。 
我 们 的 上 述 讨论 还 取决 于 本 例子 的 时 序 . 客户 调用 readline 既 可 能 发 生 在 服务 器 的 RST 
被 客户 收 到 之 前 ， 也 可 能 发 生 在 收 到 之 后 。 如 果 readline 发 生 在 收 到 RST 之 前 ( 如 本 例子 所 
T), 那么 结果 是 客户 得 到 一 个 未 预期 的 EOF; 否则 结果 是 由 readline 返 回 一 个 ECONNRESET 
( “connection reset by peer”， 对 方 复位 连接 错误 ) 。 
本 例子 的 问题 在 于 : 当 FIN 到 达 套 接 字 时 ， 客 户 正 阻塞 在 fgets 调 用 上 。 客 户 实际 上 在 应 对 
两 个 描述 符 一 一 套 接 字 和 用 户 输入 ， 它 不 能 单纯 阻塞 在 这 两 个 源 中 某 个 特定 源 的 输入 上 《正如 
目前 编写 的 str_cli 函 数 所 为 )， 而 是 应 该 阻塞 在 其 中 任何 一 个 源 的 输入 上 。 事 实 上 这 正 是 
select 和 poll 这 两 个 函数 的 目的 之 一 ， 我 们 将 在 第 6 章 中 讨论 它们 。 我 们 在 6.4 节 重新 编写 
str_cli 销 数 之 后 ， 一 旦 杀 死 服务 器 子 进程 ， 客 户 就 会 立即 被 告知 已 收 到 FIN。 


ME AUR e TE OA EN oe DT a A tete ost e 








要 是 客户 不 理会 readaline 函 数 返 回 的 错误 ， 反 而 写 入 更 多 的 数据 到 服务 器 上 ,， 那 又 会 发 生 
什么 呢 ? 这 种 情况 是 可 能 发 生 的 ， 举 例 来 说 ， 客 户 可 能 在 读 回 任何 数据 之 前 执行 两 次 针对 服务 
器 的 写 操作 ， 而 RST 是 由 其 中 第 一 次 写 操作 引发 的 。 

适用 于 此 的 规则 是 : 当 一 个 进程 向 某 个 已 收 到 RST 的 套 接 字 执 行 写 操作 时 ， 内 核 向 该 进程 发 
送 一 个 SIGPIPE 信 号。 该 信号 的 默认 行为 是 终止 进程 , 因此 进程 必须 捕获 它 以 免 不 情 愿 地 被 终止 。 

不 论 该 进程 是 捕获 了 该 信号 并 从 其 信号 处 理 函 数 返 回 ， 还 是 简单 地 忽略 该 信号 ， 写 操作 都 
将 返回 EPIPE 错 误 。 
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5.14. 


一 个 在 Usenet 上 经 常 问 及 的 问题 (frequently asked question, FAQ) 是 如 何在 第 一 次 写 操 
作 时 而 不 是 在 第 二 次 写 操 作 时 捕获 该 信号 。 这 是 不 可 能 的 。 遵照 上 述 讨论 ， 第 一 次 写 操作 引 
发 RST， 第 二 次 写 引 发 SIGPIPE 信 号 。 写 一 个 已 接收 了 FIN 的 套 接 字 不 成 问题 ,但 是 写 一 个 已 
接收 了 RST 的 套 接 字 则 是 一 个 错误 。 
了 看 清 有 了 SIGPIPE 信 号 会 发 生 什 么 ， 我 们 把 客户 程序 修改 成 如 图 5-14 所 示 。 


tcpcliserv/str clill.c 








#include "unp.h* 
void 
str Cli(FILE *fp, int sockfd) 
( 
char sendline[MAXLINE], recvline[MAXLINE]; 
while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 
Writen(sockfd, sendline, 1); 
sleep(1); 
Writen(sockfd, sendline+1, strlen(sendline)-1); 
if (Readline(sockfd, recvline, MAXLINE) == 0) 
err quit("str cli: server terminated prematurely"); 


Fputs(recvline, stdout); 











tcpcliserv/str. clill.c 


图 $-14 ”调用 writen 两 次 的 str_cli 函 数 


我 们 所 做 的 修改 就 是 调用 writen 两 次 : 第 一 次 把 文本 行 数据 的 第 一 个 字 节 写 入 套 接 字 ， 
暂停 一 秒 钟 后 ， 第 二 次 把 同一 文本 行 中 剩余 字 节 写 入 套 接 字 。 目 的 是 让 第 一 次 writen 
引发 一 个 RST， 再 让 第 二 个 writen 产 生 SIGPIPE。 

在 我 们 的 Linux 主 机 上 运行 客户 ， 我 们 得 到 如 下 结果 : 


linux $ tepelill 127.0.0.1 


hi there 我 们 键入 这 行文 本 
hi there 它 被 服务 器 回 射 回来 

在 这 儿 杀 死 服务 器 子 进程 
bye 然后 键入 这 行文 本 
Broken pipe 本 行 由 shell 显 示 


我 们 启动 客户 , 键入 一 行文 本 , 看 到 它 被 正确 回 射 后 , 在 服务 器 主机 上 终止 服务 器 子 进程 。 
我 们 接着 键入 另 一 行文 本 (“bye”), 结果 是 没有 任何 回 射 , 而 shell 告 诉 我 们 客户 进程 因为 
SITGPIPE 信 和 号 而 死亡 了 。 当 前 台 进 程 未 曾 执行 内 存 内 容 倾泻 (core dumping) 就 死亡 时 ， 
有 些 shell 不 显示 任何 信息 ， 不 过 我 们 用 于 本 例子 的 shell 即 bash 却 告知 我 们 欲 知 的 信息 。 
处 理 STGPIPE 的 建议 方法 取决 于 它 发 生 时 应 用 进程 想 做 什么 。 如 果 没 有 特殊 的 事情 要 
做 ， 那 么 将 信号 处 理 办 法 直接 设置 为 STG_IGN， 并 假设 后 续 的 输出 操作 将 捕捉 EPIPE 错 
误 并 终止 。 如 果 信 号 出 现时 需 采 取 特 殊 措 施 〈《 可 能 需 在 日 志文 件 中 登记 )， 那 么 就 必须 
捕获 该 信号 ， 以 便 在 信号 处 理 函 数 中 执行 所 有 期 望 的 动作 。 但 是 必须 意识 到 ， 如 果 使 用 
了 多 个 套 接 字 ， 该 信和 号 的 递交 无 法 告诉 我 们 是 哪个 套 接 字 出 的 错 。 如 果 我 们 确实 需要 知 
道 是 哪个 write 出 了 错 ， 那 么 必须 要 么 不 理会 该 信号 ， 要 么 从 信和 号 处 理 函 数 返 回 后 再 处 
理 来 自 write 的 EPIPE。 


_ 服 务 器 主机 崩溃 





我 们 接着 查看 当 服 务 器 主机 崩溃 时 会 发 生 什 么 。 为 了 模拟 这 种 情形 ， 我 们 必须 在 不 同 的 主 
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机 上 运行 客户 和 服务 器 。 我 们 先 启 动 服 务 器 ， 再 启动 客户 ， 接 着 在 客户 上 键入 一 行文 本 以 确认 

连接 工作 正常 ， 然 后 从 网 络 上 新 开 服 务 器 主机 ， 并 在 客户 上 键入 另 一 行文 本 。 这 样 同 时 也 模拟 

了 当 客 户 发 送 数据 时 服务 器 主机 不 可 达 的 情形 〈 即 建立 连接 后 某 些 中 间 路 由 器 不 工作 )。 
步骤 如 下 所 述 。 

(1) 当 服 务 器 主机 崩溃 时 , 已 有 的 网 络 连 接 上 不 发 出 任何 东西 .这 里 我 们 假设 的 是 主机 崩溃 ， 
而 不 是 由 操作 员 执 行 命令 关机 (我们 将 在 $.16 节 讨论 后 者 )。 

(2) 我 们 在 客户 上 键入 一 行文 本 ， 它 由 writen (图 5-5) 写 入 内 核 ， 再 由 客户 TCP 作 为 一 个 
数据 分 节 送 出 。 客 户 随后 阻 寒 于 readl1ine 调 用 ， 等 待 回 射 的 应 答 。 

(3) 如 果 我 们 用 tcpdaump 观 察 网 络 就 会 发 现 ， 客 户 TCP 持 续 重 传 数据 分 节 ， 试 图 从 服务 器 上 
接收 一 个 ACK。TCPv2 的 25.11 节 给 出 了 TCP 重 传 一 个 典型 模式 : 源 自 Berkeley 的 实现 重 传 该 数据 
分 节 12 次 ， 共 等 待 约 9 分 钟 才 放弃 重 传 。 当 客户 TCP 最 后 终于 放弃 时 〈 假 设 在 这 段 时 间 内 ， 服 务 
器 主机 没有 重新 启动 ， 或 者 如 果 是 服务 器 主机 未 崩溃 但 是 从 网 络 上 不 可 达 ， 那 么 假设 主机 仍然 
不 可 达 )， 给 客户 进程 返回 一 个 错误 。 既 然 客 户 阻塞 在 readline 调 用 上 ， 该 调用 将 返回 一 个 错 
误 。 假 设 服务 器 主机 已 崩溃 ， 从 而 对 客户 的 数据 分 节 根 本 没有 响应 ， 那 么 所 返回 的 错误 是 
ETIMEDOUT。 然 而 如 果 某 个 中 间 路 由 器 判定 服务 器 主机 已 不 可 达 ， 从 而 响应 以 一 个 “destination 
unreachable”( 目 的 地 不 可 达 ) ICMP 消 息 , 那么 所 返回 的 错误 是 EHOSTUNREACH 或 ENETUNREACH。 

尽管 我 们 的 客户 最 终 还 是 会 发 现 对 端 主机 已 崩溃 或 不 可 达 ， 不 过 有 时 候 我 们 需要 比 不 得 不 
等 待 9 分 钟 更 快 地 检测 出 这 种 情况 。 所 用 方法 就 是 对 readline 调 用 设置 一 个 超时 ,我 们 将 在 14.2 
节 讨 论 这 一 点 。 

我 们 刚刚 讨论 的 情形 只 有 在 我 们 向 服务 器 主机 发 送 数 据 时 才能 检测 出 它 己 经 崩溃 。 如 果 我 
们 不 主动 向 它 发 送 数据 也 想 检 测 出 服务 器 主机 的 骨 溃 ， 那 么 需要 采用 另外 一 个 技术 ， 也 就 是 我 
们 将 在 7.5 节 讨论 的 SO_KEEPALIVE 套 接 字 选项 。 

5.15 服务 器 主机 崩溃 后 重启 - 

在 这 种 情形 中 ， 我 们 先 在 客户 与 服务 器 之 间 建 立 连接 ， 然 后 假设 服务 器 主机 崩溃 并 重启 。 
前 一 节 中 ， 当 我 们 发 送 数据 时 ， 服 务 器 主机 仍然 处 于 崩溃 状态 ;本 节 中 ， 我 们 将 在 发 送 数 据 前 
重新 启动 已 经 崩溃 的 服务 器 主机 。 模 拟 这 种 情形 的 最 简单 方法 就 是 : 先 建立 连接 ， 再 从 网 络 上 
断 开 服务 器 主机 ， 将 它 关 机 后 再 重新 启动 ， 最 后 把 它 重 新 连接 到 网 络 中 。 我 们 不 想 客户 知道 服 
务 器 主机 的 关机 《我 们 将 在 5.16 节 讨论 这 一 点 )。 

正如 前 一 节 所 述 ， 如 果 在 服务 器 主机 崩溃 时 客户 不 主动 给 服务 器 发 送 数据 ， 那 么 客户 将 不 
会 知道 服务 器 主机 已 经 崩溃 。( 这 里 假设 我 们 没有 使 用 so_KEEPALIVE 套 接 字 选 项 )。 所 发 生 的 步 
又 如 下 所 述 。 

(1) 我 们 启动 服务 器 和 客户 ， 并 在 客户 键入 一 行文 本 以 确认 连接 已 经 建立 。 

(2) 服务 器 主机 崩溃 并 重启 。 

(3) 在 客户 上 键入 一 行文 本 ， 它 将 作为 一 个 TCP 数 据 分 节 发 送 到 服务 器 主机 。 

(4) 当 服 务 器 主机 崩溃 后 重启 时 ， 它 的 TCP 丢 失 了 骨 溃 前 的 所 有 连接 信息 ， 因 此 服务 器 TCP 
对 于 所 收 到 的 来 自 客户 的 数据 分 节 响 应 以 一 个 RST。 

(5) 当 客 户 TCP 收 到 该 RST 时 ， 客 户 正 阻塞 于 read1line 调 用 ， 导 致 该 调用 返回 ECONNRESET 
错误 。 

如 果 对 客户 而 言 检 测 服务 器 主机 崩溃 与 否 很 重要 ， 即 使 客户 不 主动 发 送 数据 也 要 能 检测 出 
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来 ， 就 需要 采用 其 他 某 种 技术 〈 诸 如 so_KPEPALIVE 套 接 字 选 项 或 某 些 客户 /服务 器 心 搏 函 数 )。 


前 面 两 节 讨论 了 服务 器 主机 裔 省 或 无 法 通过 网 络 到 达 的 情形 。 本 节 考 虑 当 我 们 的 服务 器 进 
程 正 在 运行 时 ， 服 务 器 主机 被 操作 员 关 机 将 会 发 生 什 么 。 

Unix 系 统 关 机 时 ，init 进 程 通常 先 给 所 有 进程 发 送 STGTERM 信 和 号 〈 该 信号 可 被 捕获 )， 等 待 
一 段 固定 的 时 间 〈 往 往 在 5 到 20 秒 之 间 )， 然 后 给 所 有 仍 在 运行 的 进程 发 送 szGKILL 信 和 号 〈 该 信 
号 不 能 被 捕获 )。 这 么 做 留 给 所 有 运行 的 进程 一 小 段 时 间 来 清除 和 终止 。 如 果 我 们 不 捕获 
SIGTERM 信 号 并 终止 ， 我 们 的 服务 器 将 由 sIGKILL 信 号 终止 。? 当 服务 器 子 进程 终止 时 ， 它 的 所 
有 打开 着 的 描述 符 都 被 关闭 ， 随 后 发 生 的 步 又 与 5.12 节 中 讨论 过 的 一 样 。 正 如 那 一 节 所 述 ， 我 
们 必须 在 客户 中 使 用 select 或 pol11 函 数 ， 使 得 服务 器 进程 的 终止 一 经 发 生 ， 客 户 就 能 检测 到 。 
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5.17 TCP 程序 例子 小 结 ————— 


在 TCP 客 户 和 服务 器 可 以 彼此 通信 之 前 ， 每 一 端 都 得 指定 连接 的 套 接 字 对 : 本 地 IP 地 址 、 
本 地 端口 、 外 地 了 地址、 外 地 端口 。 在 图 5-15 中 我 们 以 粗 体 圆 点 标 出 了 这 四 个 值 。 该 图 处 于 窜 
户 的 角度 。 外 地 IP 地 址 和 外 地 端口 必须 在 客户 调用 connect 时 指定 ， 而 两 个 本 地 值 通常 就 由 内 
核 作为 connect 的 一 部 分 来 选 定 。 客 户 也 可 在 调用 connect 之 前 ， 通 过 调用 bind 来 指定 其 中 一 
个 或 全 部 两 个 本 地 值 ， 不 过 这 种 做 法 并 不 常见 。 


socket () 
connect () 









由 TCP 选 择 的 客户 指定 服务 器 的 


众所周知 端口 号 












由 IP 选 择 的 客户 人 P 地 址 
GETH H) 


指定 服务 器 的 人 P 地 址 








图 5-15 ”从 客户 的 角度 总 结 TCP 客 户 /服务 器 


D 应 该 说 如 果 我 们 忽略 sTGTERM 信 号 ， 我 们 的 服务 器 将 由 siGKILL 信 号 终止 。srGTERM 信 号 的 默认 处 置 就 是 终止 进 


程 ， 因 此 要 是 我 们 不 捕获 它 《〈 也 不 忽略 它 )， 那 么 起 作用 的 是 它 的 默认 处 署 ， 我 们 的 服务 器 将 被 srGTERM 信 和 号 终 
止 ，SIGKILL 信 号 不 可 能 再 发 送 给 它 。 一 一 译 者 注 
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正如 4.10 节 所 述 ， 客 户 可 以 在 连接 建立 后 通过 调用 getsockname 获 取 由 内 核 指 定 的 两 个 本 
Bü. — 
图 5-16 标 出 了 同样 的 四 个 值 ， 不 过 处 于 服务 器 的 角度 。 


listen() socket () 
accept () bind() 








返回 客户 的 端口 号 





的 众所周知 端口 号 










返回 客户 的 人 P 地 址 





(一 般 为 通 配 地 址 ) 





图 5-16 ”从 服务 器 的 角度 总 结 TCP 客 户 /服务 器 


本 地 端口 (服务 器 的 众所周知 端口 》 由 bina 指 定 。bind 调 用 中 服务 器 指定 的 本 地 IP 地 址 通 
常 是 通 配 IP 地 址 。 如 果 服 务 器 在 一 个 多 宿主 机 上 绑 定 通 配 IP 地 址 ， 那 么 它 可 以 在 连接 建立 后 通 
过 调用 getsockname 来 确定 本 地 IP 地 址 (4.10 节 )。 两 个 外 地 值 则 由 accept 调 用 返回 给 服务 器 。 
正如 4.10 节 所 述 ， 如 果 另 外 一 个 程序 由 调用 accept 的 服务 器 通过 调用 exec 来 执行 ， 那 么 这 个 新 
程序 可 以 在 必要 时 调用 getpeername 来 确定 客户 的 耳 地 址 和 端口 号 。 


证 CT TT ORR TE A A ————— ÉRRRRER 
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在 我 们 的 例子 中 ,服务 器 从 不 检查 来 自 客户 的 请 求 。 它 只 管 读 入 直到 换行 符 (包括 换行 符 ) 
的 所 有 数据 ， 把 它 发 回 给 客户 ， 所 搜索 的 仅仅 是 换行 符 。 这 只 是 一 个 例外 ， 而 不 是 通常 规则 ， 
一 般 来 说 ， 我 们 必须 关心 在 客户 和 服务 器 之 间 进 行 交 换 的 数据 的 格式 。 


5.18.1 例子 : 在 客户 与 服务 器 之 间 传 递 文本 串 


修改 我 们 的 服务 器 程序 ， 它 仍然 从 客户 读 入 一 行文 本 ， 不 过 新 的 服务 器 期 望 该 文本 行 包含 
由 空格 分 开 的 两 个 整数 ， 服 务 器 将 返回 这 两 个 整数 的 和 。 我 们 的 客户 和 服务 器 程序 的 main 函 数 [146 
仍 保持 不 变 ，str_cli 函 数 也 保持 不 变 ， 所 有 修改 都 在 str_echo 函 数 ， 如 图 5-17 所 示 。 147 
11-14 我 们 调用 sscanf 把 文本 串 中 的 两 个 参数 转换 为 长 整数 , 然后 调用 snprintf 把 结果 转换 
为 文本 串 。 
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tcpcliserv/str echo08.c 





1 #include "unp.h" 


2 void 
3 str echo(int sockfd) 


4 { 

5 long argl, arg2; 

6 ssize t n; 

7 char line[MAXLINE]; 
8 


for (; :; ) (人 
9 if ( (n = Readline(sockfd, line, MAXLINE)) == 0) 
10 return; /* connection closed by other end */ 
11 if (sscanf(line, "$1d$1d", &argl, &arg2) == 2) 
12 snprintf(line, sizeof(line), "%ld\n", argl + arg2); 
13 else 
14 snprintf(line, sizeof(line), "input error\n"); 
15 n = strlen(line); 
16 Writen(sockfd, line, n); 
17 ) 
18 ) 





tcpcliserv/str echo08.c 


图 5-17 对 两 个 数 求 和 的 str_echo 函 数 
不 论 客户 和 服务 器 主机 的 字 节 序 如 何 ， 这 个 新 的 客户 和 服务 器 程序 对 都 工作 得 很 好 。 


5.18.2 例子: 在 客户 与 服务 器 之 间 传 递 二 进 制 结构 


现在 把 我 们 的 客户 和 服务 器 程序 修改 为 穿越 套 接 字 传递 二 进 制 值 (而 不 是 文本 串 )。 我 们 将 
看 到 ， 当 这 样 的 客户 和 服务 器 程序 运行 在 字 节 序 不 一 样 的 或 者 所 支持 长 整数 的 大 小 不 一 致 的 两 
个 主机 上 时 ， 工 作 将 失常 (图 1-17)。 

我 们 的 客户 和 服务 器 程序 的 main 函 数 无 需 改 动 。 在 头 文件 sum.h 中 ， 我 们 给 两 个 参数 定义 
了 一 个 结构 ， 给 结果 定义 了 另 一 个 结构 ， 如 图 5-18 所 示 。 图 5-19 给 出 了 str_cli 函 数 。 


tcpcliserv/sum.h 








1 struct args ( 

2 long argl; 
3 long arg2; 
4}; 


5 struct result ( 

6 long sum; 

7 )i 

tcpcliserv/sum.h 


图 $-18 ” 头 文件 sum.h 


tcpcliserv/str cli09.c 
1 #include "unp.h" 


2 #include "sum.h" 

3 void 

4 str cli(FILE *fp, int sockfd) 

91 

6 char sendline[MAXLINE]; 

7 struct args args; 

8 struct result result; 

9 while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 

10 if (sscanf(sendline, "$1d$1d", &args.argl, &args.arg2) != 2) { 





图 $-19 ”发 送 两 个 二 进 制 整数 给 服务 器 的 str_cli 函 数 
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11 printf("invalid input: $s", sendline); 





12 continue; 
13 ) 
14 Writen(sockfd, &args, sizeof(args)); 
15 if (Readn(sockfG, &result, sizeof(result)) == 0) 
16 err quit("str cli: server terminated prematurely"); 
17 printf("$1dMn", result.sum); 
18 ) 
19 ) 
tcpcliserv/str cli09.c 
图 $-19 GE) 
10-14 sscanf 把 两 个 参数 从 文本 串 转换 为 二 进 制 数 ， 我 们 接着 调用 writen 将 该 参数 结构 发 送 
给 服务 器 。 


15-17 我 们 调用 readn 来 读 回 应 答 ， 并 用 printf 来 输出 结果 。 
图 5-20 给 出 了 str_echo 函 数 。 








tcpcliserv/str echo09.c 
1 include "unp.h" 

2 #include "sum.h" 

3 void 

4 str echo(int sockfd) 

Sit 

6 ssize t n; 

7 struct args args; 

8 struct result result; 
9 





for (04-23 ( 
10 if ( (n - Readn(sockfd, &args, sizeof(args))) -- 0) 
11 return; /* connection closed by other end */ 
12 result.sum = args.argl + args.arg2; 
13 Writen(sockfd, &result, sizeof(result)); 
14 ) 
18 3 
— tepcliserv/str_echo09.c 
图 5-20 ”对 两 个 二 进 制 整数 求 和 的 str_echo 函 数 
9-14 ”我 们 通过 调用 readn 来 读 入 参数 ， 计 算 并 存储 两 数 之 和 ， 然 后 调用 writen 把 结果 结构 
发 回 。 


如 果 我 们 在 具有 相同 体系 结构 的 两 个 主机 譬如 说 两 个 SPARC 主 机 ) 上 运行 我 们 的 客户 和 
服务 器 程序 ， 那 么 什么 问题 都 没有 。 下 面 是 客户 的 交互 过 程 ; 


solaris $ tcpcli09 12.106.32.254 


11 22 我 们 键入 这 两 个 数 
33 这 个 数 是 服务 器 的 应 答 
-11 -44 

-55 


但 是 如 果 在 具有 不 同体 系 结构 的 两 个 主机 上 运行 同样 的 客户 和 服务 器 程序 ( 壁 如 说 服务 器 
程序 运行 在 大 端 字 节 序 的 SPARC 系 统 freebsd 上 , 客户 运行 在 小 端 字 节 序 的 Intel 系 统 1inux 上 )， 
那 就 无 法 工作 了 。 

linux $ tcpcli09 206.168.112.96 

12 FRAN EE AGAS I Bi 

3 结果 正确 

-22 -77 我 们 再 键入 另外 两 个 数 
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-16777314 结果 错误 

问题 在 于 由 客户 以 小 端 字 节 序 格式 穿越 套 接 字 送出 的 两 个 二 进 制 整数 ， 却 被 服务 器 解释 成 
了 大 端 字 节 序 整 数 。 我 们 看 到 这 对 客户 和 服务 器 对 于 正 整数 看 起 来 工作 正常 ， 但 是 对 于 负 整 数 
则 工作 失常 了 《见习 题 5.8)。 本 例子 实际 上 存在 三 个 潜在 的 问题 。 

(1) 不 同 的 实现 以 不 同 的 格式 存储 二 进 制 数 。 最 常见 的 格式 便 是 3.4 节 讨论 过 的 大 端 字 节 序 
与 小 端 字 节 序 。 

(2) 不 同 的 实现 在 存储 相同 的 C 数 据 类 型 上 可 能 存在 差异 。 举 例 来 说 ， 大 多 数 32 位 Unix 系 统 
使 用 32 位 表示 长 整数 ， 而 64 位 系统 却 典型 地 使 用 64 位 来 表示 同样 的 数据 类 型 〈 图 1-17)。 对 于 
short、int 或 1ong 等 整数 类 型 ， 它 们 各 自 的 大 小 没有 确定 的 保证 。 

(3) 不同 的 实现 给 结构 打包 的 方式 存在 差异 , 取决 于 各 种 数据 类 型 所 用 的 位 数 以 及 机 器 的 对 
齐 限 制 。 因 此 ， 穿 越 套 接 字 传送 二 进 制 结构 绝 不 是 明智 的 。 

解决 这 种 数据 格式 问题 有 两 个 常用 方法 。 

(D 把 所 有 的 数值 数据 作为 文本 串 来 传递 。 这 就 是 图 $-17 的 做 法 。 当 然 这 里 假设 客户 和 服务 
器 主机 具有 相同 的 字符 集 。 

(2) 显 式 定 义 所 支持 数据 类 型 的 二 进 制 格式 〈 位 数 、 大 端 或 小 端 字 节 序 )， 并 以 这 样 的 格式 
在 客户 与 服务 器 之 间 传 递 所 有 数据 。 远 程 过 程 调 用 (Remote Procedure Call, RPC) 软件 包 通 常 
使 用 这 种 技术 。RFC 1832 [ Srinivasan 1995 ] 阐述 了 Sun RPC 软 件 包 所 用 的 外 部 数据 表示 (External 
Data Representation, XDR) 标准 。 


5.19 小 结 





我 们 的 回 射 客户 /服务 器 程序 的 第 一 个 版 本 总 共 约 150 行 (包括 函数 readline 和 writen)， 
不 过 提供 了 许多 值得 查看 的 细节 问题 ,我 们 过 到 的 第 一 个 问题 是 伪 死 子 进程 , 通过 捕获 sIGCHLD 
信号 加 以 处 理 。 我 们 演示 过 该 信号 的 处 理 函 数 随后 必须 调用 的 是 waitpia 函 数 而 不 是 较 早 的 
wait 函 数 ， 因 为 Unix 信 号 是 不 排队 的 。 这 一 点 促成 我 们 了 解 POSIX 信 和 号 处 理 的 一 些 细 节 《 关 于 
信号 处 理 的 额外 信息 参见 APUE 第 10 草 )。 

我 们 遇 到 的 下 一 问题 是 当 服务 器 进程 终止 时 ， 客 户 进程 没 被 告知 。 我 们 看 到 客户 的 TCP 确 
实 被 告知 了 , 但 是 客户 进程 由 于 正 阻塞 于 等 待 用 户 输入 而 未 接收 到 该 通知 。 我 们 将 在 第 6 章 中 使 
用 select 或 pol1 函 数 来 处 理 这 种 情形 , 它们 等 待 多 个 描述 符 中 的 任何 一 个 就 绪 而 不 是 阻塞 于 单 
个 描述 符 。 

我 们 还 发 现 ， 服 务 器 主机 崩溃 的 情形 要 等 到 客户 向 服务 器 发 送 了 数据 才能 检测 到 。 有 些 应 
用 进程 要 求 能 够 尽早 了 解 这 个 事实 ， 我 们 将 在 7.5$ 节 利用 so_KEEPALIVE 套 接 字 选项 来 解决 该 问 
题 。 

我 们 的 简单 例子 交换 的 是 文本 行 ， 既 然 服务 器 根本 不 检查 所 回 射 的 文本 行 ， 那 么 没什么 问 
题 。 然 而 在 客户 与 服务 器 之 间 发 送 数 值 数据 时 将 引发 一 组 新 问题 ， 文 中 已 经 讲述 。 
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5.1 基于 图 5-2 和 图 5-3 构 造 一 个 TCP 服 务 器 程序 ， 基 于 图 5-4 和 图 5-5 构 造 一 个 TCP 客 户 程序 。 先 启动 服务 
器 ， 再 启动 客户 。 键 入 若干 文本 行 以 确认 客户 和 服务 器 工作 正常 。 通 过 键入 EOF 字 符 终 目 客户， 并 
记 下 时 间 。 在 客户 主机 上 使 用 netstat 命 令 验 证 本 连接 的 客户 端 在 经 历 TIME_WAIT 状 态 。 此 后 每 5 
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5.3 


5.4 


5.5 


5.6 


5.7 


5.8 


5.9 


5.10 


5.11 
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秒 钟 左右 执行 一 次 netstat, 查看 TIME_WAIT 状 态 何 时 结束 。 该 客户 主机 的 网 络 实现 设置 的 MSL( 最 
长 分 节 生 命 期 ) 有 多 大 ? 

对 于 我 们 的 客户 /服务 器 程序 ， 如 果 我 们 在 运行 客户 时 把 它 的 标准 输入 重 定向 到 一 个 二 进 制 文件 ， 将 
会 发 生 什么 ? 

我 们 的 回 射 客户 /服务 器 之 间 的 通信 与 利用 Telnet 客 户 跟 我 们 的 回 射 服务 器 通信 相 比 较 ， 存 在 什么 差 
别 ? 

在 5.12 节 的 例子 中 ， 我 们 使 用 netstat 命 令 通 过 查看 套 接 字 状 态 验 证 了 连接 终止 序列 的 前 两 个 分 节 
(来 自 服务 器 的 FIN 和 来 自 客户 的 对 该 分 节 的 ACK) 已 经 发 送 。 该 序列 的 后 两 个 分 节 (来 自 客户 的 FIN 
和 来 自 服务 器 的 对 该 分 节 的 ACK) 会 交换 吗 ? 如 果 交 换 的 话 , 何 时 交换 ?如果 不 交换 的 话 , 为 什么 ? 

在 5.14 节 给 出 的 例子 中 ,如 果 我 们 在 步骤 2 与 步骤 3 之 问 重 新 启动 服务 器 主机 上 的 服务 器 应 用 进程 ,将 
会 发 生 什么 ? 

为 了 验证 我 们 在 5.13 节 中 声明 的 关于 产生 sIGPIPE 信 号 的 推断 ， 我 们 对 图 5-4 作 如 下 修改 。 编 写 一 个 
SIGPIPE 信 号 处 理 函数 ， 它 只 是 显示 一 条 消息 使 返回 。 在 调用 connect 之 前 建立 该 信号 处 理 函 数 。 

把 服务 器 的 端口 号 改 为 13， 即 daytime 服 务 器 。 连 接 建立 后 ， 调 用 sleep 睡 眠 2 秒 钟 ， 然 后 调用 write 
往 套 接 字 中 写 入 若干 字 节 ， 再 sleep 2 秒 钟 ， 往 套 接 字 中 再 write 若干 字 节 。 运 行 该 程序 ， 观 察 它 将 
会 发 生 什 么 ? 

在 图 $-15 中 , 如 果 由 客户 在 connect 调 用 中 指定 的 服务 器 主机 的 了 地 址 是 与 其 右 侧 的 数据 链 路 关联 的 
IP 地 址 ， 而 不 是 与 其 左 侧 的 数据 链 路 关联 的 IP 地 址 ， 将 会 发 生 什么 ? 

在 出 自 图 5-20 的 例子 输出 中 ， 当 客户 和 服务 器 位 于 不 同 字 节 序 的 系统 上 时 , 对 于 小 的 正 整数 该 例子 工 
作 正 常 ， 但 是 对 于 小 的 负 整 数 则 工作 失常 ， 为 什么 ? GE: 仿照 图 3-9 画 一 个 穿越 套 接 字 的 数值 交 
换 图 。) 

在 图 5-19 和 图 5-20 的 例子 中 ,我们 可 以 通过 让 客户 先 调 用 hton1 函 数 把 它 的 两 个 参数 转换 成 网 络 字 节 
FF, 再 让 服务 器 在 做 加 法 之 前 对 每 个 参数 调用 ntoh1 函 数 , 然后 对 结果 做 类 似 的 转换 来 解决 字 节 序 问 
题 吗 ? 

如 果 客 户 在 某 个 以 32 位 存储 长 整数 的 SPARC 主 机 上 ， 而 服务 器 在 以 64 位 存储 长 整数 的 Digital Alpha 
主机 上 ， 图 5-19 和 图 5-20 中 的 例子 将 会 发 生 什么 ? 如 果 客 户 和 服务 器 在 这 两 个 主机 间 互 换 ， 结 果 会 改 
变 吗 ? 

在 图 $-1$ 中 ， 我 们 说 客户 耻 地 址 是 由 IP 基 于 路 由 选 定 的 ， 这 是 什么 含义 ? 
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6.4 概述 yi 


在 5.12 节 中 ， 我 们 看 到 TCP 客 户 同时 处 理 两 个 输入 : 标准 输入 和 TCP 套 接 字 。 我 们 过 到 的 问 
题 是 就 在 客户 阻塞 于 〈 标 准 输入 上 的 ) fgets 调 用 期 间 ， 服 务 器 进程 会 被 杀 死 。 服 务 器 TCP 虽 然 
正确 地 给 客户 TCP 发 送 了 一 个 FIN, 但 是 既然 客户 进程 正 阻塞 于 从 标准 输入 读 入 的 过 程 ， 它 将 看 
不 到 这 个 EOF， 直 到 从 套 接 字 读 时 为 止 ( 可 能 已 过 了 很 长 时 间 )。 这 样 的 进程 需要 一 种 预先 告知 
内 核 的 能 力 ， 使 得 内 核 一 旦 发 现 进程 指定 的 一 个 或 多 个 IO 条 件 就 绪 〈 也 就 是 说 输入 已 准备 好 被 
读 取 ， 或 者 描述 符 已 能 承接 更 多 的 输出 )， 它 就 通知 进程 。 这 个 能 力 称 为 1O 复 用 (vo 
multiplexing)， 是 由 select 和 poll 这 两 个 函数 支持 的 。 我 们 还 介绍 前 者 较 新 的 称 为 pselect 的 
POSIX 变 种 。 





有 些 系统 提供 了 更 为 先进 的 让 进程 在 一 囊 事件 上 等 待 的 机 制 。 轮 询 设备 poll device) 就 
是 这 样 的 机 制 之 一 ， 不 过 不 同 厂家 提供 的 方式 不 尽 相同 。 我 们 将 在 第 14 章 中 闲 述 这 种 机 制 . 


IO 复 用 典型 使 用 在 下 列 网 络 应 用 场合 。 

e 当 客 户 处 理 多 个 描述 符 〈 通 常 是 交互 式 输入 和 网 络 套 接 字 ) 时 ， 必 须 使 用 MO 复 用 。 这 是 
我 们 早先 讲述 过 的 场合 。 

e 一 个 客户 同时 处 理 多 个 套 接 字 是 可 能 的 , 不 过 比较 少见 。 我 们 将 在 16.5 节 中 结合 一 个 Web 
客户 的 上 下 文 给 出 这 种 场合 使 用 select 的 例子 。 

e 如 果 一 个 TCP 服 务 器 既 要 处 理 监听 套 接 字 ， 又 要 处 理 已 连接 套 接 字 ， 一 般 就 要 使 用 1/O 复 
用 ， 如 6.8 节 所 述 。 

e 如 果 一 个 服务 器 即 要 处 理 TCP， 又 要 处 理 UDP， 一 般 就 要 使 用 1/O 复 用 。 我 们 将 在 8.15 节 
给 出 这 种 场合 的 一 个 例子 。 

e 如 果 一 个 服务 器 要 处 理 多 个 服务 或 者 多 个 协议 (例如 我 们 将 在 13.5 节 讲述 的 ineta 守 护 进 
程 );， 一 般 就 要 使 用 1/O 复 用 。 

LO 复 用 并 非 只 限于 网 络 编程 ， 许 多 重要 的 应 用 程序 也 需要 使 用 这 项 技术 。 


6.2 IO 模型 


在 介绍 select 和 pol1 这 两 个 函数 之 前 ， 我 们 需要 回顾 整体 ， 查 看 Unix 下 可 用 的 5 种 IO 模型 
的 基本 区 别 : 

e [H3EXXT/O; 

e dEFH3ESXT/O; 

e JUO 复 用 (select 和 po11); 


ERR 
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e 信号 驱动 式 HO (sIGIO); 

e 异步 /JO (POSIX 的 aio_ 系 列 函 数 )。 

首次 阅读 本 书 时 ， 你 可 以 略 读本 节 , 在 碰 到 以 后 各 章节 中 详细 介绍 的 各 种 IO 模型 时 再 回头 
细 读 。 
正如 我 们 将 在 本 节 给 出 的 所 有 例子 所 示 ， 一 个 输入 操作 通常 包括 两 个 不 同 的 阶段 : 
(1) 等 待 数据 准备 好 ; 
(2) 从 内 核 向 进程 复制 数据 。 
对 于 一 个 套 接 字 上 的 输入 操作 ， 第 一 步 通常 涉及 等 待 数据 从 网 络 中 到 达 。 当 所 等 待 分 组 到 达 
时 ， 它 被 复制 到 内 核 中 的 某 个 缓冲 区 。 第 二 步 就 是 把 数据 从 内 核 缓 冲 区 复制 到 应 用 进程 缓冲 区 。 


6.2.1 阻塞 式 MO 模型 

最 流行 的 IO 模型 是 阻塞 式 UO (blocking VO) 模型 ， 本 书 到 目前 为 止 的 所 有 例子 都 使 用 该 
模型 。 默 认 情形 下 ， 所 有 套 接 字 都 是 阻塞 的 。 以 数据 报 套 接 字 作为 例子 ， 我 们 有 如 图 6-1 所 示 的 
情形 。 





应 用 进程 内 核 
recvfrom 系统 调用 无 数据 报 准 备 好 
| 
等 待 数据 
igi d 数据 报 准备 好 
recvfrom 的 调用 复制 数据 报 
| 将 数据 从 内 
| 核 复制 到 用 
、 二 户 空 间 
返回 成 功 指 示 
处 理 数据 报 a ERAR 复制 完成 


图 6-1 阻塞 式 JO 模 型 


我 们 使 用 UDP 而 不 是 TCP 作 为 例子 的 原因 在 于 就 UDP 而 言 ， 数 据 准备 好 读 取 的 概念 比较 简 
单 : 要 么 整个 数据 报 已 经 收 到 ， 要 么 还 没有 。 然 而 对 于 TCP 来 说 ， 诸 如 套 接 字 低 水 位 标记 
(low-water mark) 等 额外 变量 开始 起 作用 ， 导 致 这 个 概念 变 得 复杂 。 

在 本 节 的 例子 中 , 我 们 把 recvfrom 函 数 视 为 系统 调用 , 因为 我 们 正在 区 分 应 用 进程 和 内 核 。 
不 论 它 如 何 实现 〈 在 源 自 Berkeley 的 内 核 上 是 作为 系统 调用 , 在 SystemV 内 核 上 是 作为 调用 系统 
调用 getmsg 的 函数 )， 一 般 都 会 从 在 应 用 进程 空间 中 运行 切换 到 在 内 核 空间 中 运行 ， 一 段 时 间 
之 后 再 切换 回来 。 

在 图 6-1 中 ， 进 程 调用 recvfrom， 其 系统 调用 直到 数据 报到 达 且 被 复制 到 应 用 进程 的 缓冲 
区 中 或 者 发 生 错误 才 返回 。 最 常见 的 错误 是 系统 调用 被 信号 中 断 ， 如 5.9 节 所 述 。 我 们 说 进程 在 
从 调用 recvfrom 开 始 到 它 返 回 的 整 段 时 间 内 是 被 阻塞 的 。recvfrom 成 功 返 回 后 ， 应 用 进程 开 
始 处 理 数 据 报 。 


6.2.2 3EBRZESX I/O 模型 
进程 把 一 个 套 接 字 设 置 成 非 阻塞 是 在 通知 内 核 : 当 所 请 求 的 MO 操作 非得 把 本 进程 投入 睡眠 
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才能 完成 时 ， 不 要 把 本 进程 投入 有 睡眠， 而 是 返回 一 个 错误 。 我 们 将 在 第 16 章 中 详细 介绍 非 阻 塞 
IIO (nonblocking IO)， 不 过 图 6-2 概 要 展示 了 我 们 即将 考虑 的 例子 。 


应 用 进程 

系统 调用 
recvfrom 

EWOULDBLOCK 


系统 调用 


recvfrom —— 
EWOULDBLOCK 


系统 调用 


recvfrom —Ó— 
recvfrom^$ 4$ 系统 调用 


返回 成 功 指示 recvfrom ——— 


〈 轮 询 ) 


处 理 数据 报 返回 成 功 指示 


图 6-2” 非 阻塞 式 IO 模 型 


内 核 
无 数据 报 准备 好 


无 数据 报 准备 好 
等 待 数 据 


无 数据 报 准备 好 


数据 报 准 备 好 
复制 数据 报 


将 数据 从 内 
核 复制 到 用 
户 空间 


复制 完成 


前 三 次 调用 recvfrom 时 没有 数据 可 返回 ， 因 此 内 核 转 而 立即 返回 一 个 EwoULDBLOCK 错 误 。 
第 四 次 调用 recvfrom 时 已 有 一 个 数据 报 准 备 好 ， 它 被 复制 到 应 用 进程 缓冲 区 ， 于 是 recvfrom 


成 功 返回 。 我们 接着 处 理 数据 。 


一 个 应 用 进程 像 这 样 对 一 个 非 阻塞 描述 符 循环 调用 recvfrom 时 ， 我 们 称 之 为 轮 询 
《polling)。 应 用 进程 持续 轮 询 内 核 ， 以 查看 某 个 操作 是 否 就 绪 。 这 么 做 往往 耗费 大 量 CPU 时 间 ， 
不 过 这 种 模型 偶尔 也 会 遇 到 ， 通 常 是 在 专门 提供 某 一 种 功能 的 系统 中 才 有 。 


6.23 1/0 复 用 模型 


有 了 LO 复 用 (VO multiplexing)， 我 们 就 可 以 调用 select 或 po11， 阻 塞 在 这 两 个 系统 调用 
中 的 某 一 个 之 上 ， 而 不 是 阻塞 在 真正 的 UO 系 统 调用 上 。 网 6-3 概 括 展示 了 LUO 复 用 模型 。 





应 用 进程 
select 系统 调用 
进程 受阻 于 select 
调用 ， 等 待 可 能 多 
个 套 接 字 中 的 任 一 
个 变 为 可 读 
返回 可 读 条 件 
recvfrom LO AHmWH 。 
数据 复制 到 应 用 组 
剖 区 期 间 进程 阻塞 


返回 成 功 指示 
处 理 数据 报 
图 6-3 ”1/O 复 用 模型 


内 核 
无 数据 报 准 备 好 
等 待 数据 
数据 报 准 备 好 
复制 数据 报 
将 数据 从 内 
核 复 制 到 用 
户 空 间 
复制 完成 
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我 们 阻塞 于 select 调 用 , 等 待 数据 报 套 接 字 变 为 可 读 。 当 select 返 回 套 接 字 可 读 这 一 条 件 
时 ， 我 们 调用 recvfrom 把 所 读数 据 报复 制 到 应 用 进程 缓冲 区 。 

比较 图 6-3 和 图 6-1，L/O 复 用 并 不 显得 有 什么 优势 ， 事实 上 由 于 使 用 select 需 要 两 个 而 不 是 
单个 系统 调用 ，LIO 复 用 还 稍 有 劣势 。 不 过 我 们 将 在 本 章 稍 后 看 到 ， 使 用 select 的 优势 在 于 我 们 
可 以 等 待 多 个 描述 符 就 绪 。 


与 JO 复 用 密切 相关 的 另 一 种 IO 模型 是 在 多 线程 中 使 用 阻塞 式 HO. 这 种 模型 与 上 述 模型 
极为 相似 ， 但 它 没有 使 用 select 阻 塞 在 多 个 文件 描述 符 上 ， 而 是 使 用 多 个 线程 (每 个 文件 
描述 符 一 个 线程 ) ， 这 样 每 个 线程 都 可 以 自由 地 调用 诸如 recvfrom 之 类 的 阻塞 式 HJO 系 统 调 
用 了 。 


6.2.4 信号 驱动 式 MO 模型 


我 们 也 可 以 用 信号 ， 让 内 核 在 描述 符 就 绪 时 发 送 sIGIO 信 号 通知 我 们 。 我 们 称 这 种 模型 为 
信号 驱动 式 UO (signal-driven IO)， 图 6-4 是 它 的 概要 展示 。 








应 用 进程 内 核 
sigaction 系 统 调用 
一 人 
建立 siGrc 的 - 
( 信号 处 理 程序 返回 
进程 继续 执行 等 待 数据 
b= 递交 sSIGIO 
( 信号 处 理 程序 “< 一 一 一 一 一 一 数据 报 准备 好 
recvfrom — 系统 调用 n 复制 数据 报 
数据 复制 到 应 用 组 将 数据 从 内 
冲 区 期 间 进程 阻塞 4 核 复制 到 用 
户 空间 
处 理 数据 报 。 = IH 复制 完成 


图 6-4 ”信号 驱动 式 UO 模 型 


我 们 首先 开启 套 接 字 的 信号 驱动 式 1/O 功 能 (我 们 将 在 25.2 节 讲解 这 个 过 程 ;， 并 通过 
sigaction 系 统 调用 安装 一 个 信号 处 理 函 数 。 该 系统 调用 将 立即 返回 ,我们 的 进程 继续 工作 ， 
也 就 是 说 它 没 有 被 阻塞 。 当 数据 报 准备 好 读 取 时 ， 内 核 就 为 该 进程 产生 一 个 SIGIo 信 和 号。 我 们 
随后 既 可 以 在 信号 处 理 函 数 中 调用 recvfrom 读 取 数 据 报 ， 并 通知 主 循环 数据 已 准备 好 待 处 理 
(这 正 是 我 们 将 在 25.3 节 中 所 要 做 的 事情 )， 也 可 以 立即 通知 主 循环 ， 让 它 读 取 数 据 报 。 

无 论 如 何 处 理 STGTo 信 和 号， 这 种 模型 的 优势 在 于 等 待 数据 报 到 达 期 间 进程 不 被 阻塞 。 主 循 
环 可 以 继续 执行 ， 只 要 等 待 来 自信 号 处 理 函 数 的 通知 : 既 可 以 是 数据 已 准备 好 被 处 理 ， 也 可 以 
是 数据 报 已 准备 好 被 读 取 。 


6.2.5 异步 VO 模型 
异步 JO (asynchronous VO) 由 POSIX 规 范 定义 。 演 变 成 当前 POSIX 规 范 的 各 种 早期 标准 所 
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定义 的 实时 函数 中 存在 的 差异 已 经 取得 一 致 。 一 般 地 说 ， 这 些 函 数 的 工作 机 制 是 : 告知 内 核 启 
动 某 个 操作 ， 并 让 内 核 在 整个 操作 〈 包 括 将 数据 从 内 核 复制 到 我 们 自己 的 缓冲 区 ) 完成 后 通知 
我 们 。 这 种 模型 与 前 一 节 介绍 的 信号 驱动 模型 的 主要 区 别 在 于 : 信号 驱动 式 I/O 是 由 内 核 通知 我 
们 何 时 可 以 启动 一 个 LO 操作 ， 而 异步 O 模 型 是 由 内 核 遂 知 我 们 MO 操作 何 时 完成 。 图 6-5 给 出 了 
一 个 例子 。 


应 用 进程 内 核 
系统 调用 
aio read | ——————————9 无 数据 报 准备 好 
返回 
等 待 数据 
CNN 数据 报 准备 好 
复制 数据 报 
将 数据 从 内 
核 复制 到 用 
户 空间 
程序 处 理 a 递交 在 aio_reaa 中 — 复制 完成 
数据 报 指定 的 信号 


图 6-$ 异步 IJO 模 型 


我 们 调用 aio_readG 函 数 (POSIX 蜡 步 O 函 数 以 aio_ 或 1io_ 开 头 )， 给 内 核 传递 描述 符 、 绥 
冲 区 指针 、 缓 冲 区 大 小 (与 read 相 同 的 三 个 参数 ) 和 文件 偏 移 〈 与 1seek 类 似 )， 并 告诉 内 核 当 
整个 操作 完成 时 如 何 通知 我 们 。 该 系统 调用 立即 返回 ， 而且 在 等 待 /O 完 成 期 间 ， 我 们 的 进程 不 
被 阻塞 。 本 例子 中 我 们 假设 要 求 内 核 在 操作 完成 时 产生 某 个 信号 。 该 信号 直到 数据 已 复制 到 应 
用 进程 缓冲 区 才 产 生 ， 这 一 点 不 同 于 信号 驱动 式 1/O 模 型 。 

本 书 编写 至 此 的 时 候 ， 支 持 POSIX 异 步 JO 模 型 的 系统 仍 较 罕 见 。 我 们 不 能 确定 这 样 的 系 


统 是 否 支持 套 接 字 上 的 这 种 模型 。 这 儿 我 们 只 是 用 它 作为 一 个 与 信号 驱动 式 UO 模 型 相 比照 的 
例子 。 


6.2.6 ”各 种 I/O 模型 的 比较 


图 6-6 对 比 了 上 述 5 种 不 同 的 VO 模型 。 可 以 看 出 ， 前 4 种 模型 的 主要 区 别 在 于 第 一 阶段 ， 
为 它们 的 第 二 阶段 是 一 样 的 : 在 数据 从 内 核 复制 到 调用 者 的 缓冲 区 期 间 ， 进 程 阻塞 于 recvfrom 
调用 。 相 反 ， 异 步 1O 模 型 在 这 两 个 阶段 都 要 处 理 ， 从 而 不 同 于 其 他 4 种 模型 。 


6.2.7 同步 VO 和 异步 VO 对 比 
POSIX 把 这 两 个 术语 定义 如 下 : 
e 同步 IO 操作 (synchronous I/O opetation) 导致 请 求 进程 阻塞 ， 直 到 IO 操作 完成 ; 
e 异步 IO 操作 (asynchronous I/O opetation) 不 导致 请 求 进程 阻塞 。 
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[ 阳 案 式 UO |  denatvo | vomm | SEARO 


检查 发 起 


等 待 
数据 


将 数据 
从 内 核 
复制 到 
用 户 空 
间 








第 一 阶段 处 理 不 同 ， 第 二 阶段 处 理 相同 《阻塞 于 recvfrom 调 用 ) 处 理 两 个 阶段 
图 6-6 5 种 VO 模型 的 比较 
根据 上 述 定义 , 我 们 的 前 4 种 模型 一 一 阻塞 式 1/O 模 型 、 非 阻塞 式 VO 模 型 、VO 复 用 模型 和 信 
号 驱动 式 V/O 模 型 都 是 同步 WO 模型 ， 因 为 其 中 真正 的 VO 操作 〈recvfrom) 将 阻塞 进程 。 只 有 有 异 
步 JO 模 型 与 POSIX 定 义 的 异步 JO 相 匹配 。 


T —————" 
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该 函数 允许 进程 指示 内 核 等 待 多 个 事件 中 的 任何 一 个 发 生 ， 并 只 在 有 一 个 或 多 个 事件 发 生 
或 经 历 一段 指 定 的 时 间 后 才 唤 醒 它 。 

作为 一 个 例子 ， 我 们 可 以 调用 select， 告 知 内 核 仅 在 下 列 情况 发 生 时 才 返 回 ; 

e 集合 {1，4，5} 中 的 任何 描述 符 准 备 好 读 ; 

。 集合 {2，7} 中 的 任何 描述 符 准备 好 写 ; 

e 集合 {1 ，4} 中 的 任何 描述 符 有 异常 条 件 待 处 理 ; 

e 已 经 历 了 10.2 秒 。 

也 就 是 说 ， 我 们 调用 select 告 知 内 核对 哪些 描述 符 《〈 就 读 、 写 或 异常 条 件 ) 感 兴趣 以 及 等 
待 多 长 时 间 。 我 们 感 兴趣 的 描述 符 不 局 限于 套 接 字 ， 任 何 描述 符 都 可 以 使 用 select 来 测试 。 


源 自 Berkeley 的 实现 已 经 允许 任何 描述 符 的 IO 复 用 。SVR3 最 初 把 UO 复 用 限制 于 对 应 流 
设备 (STREAMS device， 见 第 31 章 ) 的 描述 符 ，SVR4 则 去 除了 这 个 限制 。 





#include «sys/select.h» 
#include «sys/time.h» 


int select (int maxfdpl, fd set *readset, fd set *writeset, fd set *exceptset, 
const struct timeval *timeout) ; 


返回 ， 若 有 就 绪 描述 符 则 为 其 数目 ， 若 超时 则 为 0， 若 出 错 则 为 -1 
我 们 从 该 函数 的 最 后 一 个 参数 timeout 开 始 介绍 ， 它 告知 内 核 等 待 所 指定 描述 符 中 的 任何 一 
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个 就 绪 可 花 多 长 时 间 。 其 timeval 结 构 用 于 指定 这 段 时 间 的 秒 数 和 微 秒 数 。 
struct timeval { 
long tv_sec; /* seconds */ 
long tv_usec; /* microseconds */ 
) 
这 个 参数 有 以 下 三 种 可 能 。 
(1) 永远 等 待 下 去 ， 仅 在 有 一 个 描述 符 准备 好 IO 时 才 返 回 。 为 此 ， 我 们 把 该 参数 设置 为 空 
指针 。 
(2) 等 待 一 段 固 定时 间 : 在 有 一 个 描述 符 准备 好 WO 时 返回 ， 但 是 不 超过 由 该 参数 所 指向 的 
timeval 结 构 中 指定 的 秒 数 和 微 秒 数 。 
(3) 根本 不 等 待 ， 检 查 描 述 符 后 立即 返回 ， 这 称 为 轮 询 (polling)。 为 此 ， 该 参数 必须 指向 
一 个 timeval 结 构 ， 而 且 其 中 的 定时 器 值 〈 由 该 结构 指定 的 秒 数 和 微 秒 数 ) 必须 为 0。 
前 两 种 情形 的 等 待 通常 会 被 进程 在 等 待 期 间 捕获 的 信号 中 断 ， 并 从 信和 号 处 理 函 数 返 回 。 


源 自 Berkeley 的 内 核 绝 不 自动 重启 被 中 断 的 select (TCPv2 第 527 页 ) ， 然 而 SVR4 可 以 
自动 重启 被 中 断 的 select， 条 件 是 在 安装 信号 处 理 函 数 时 指定 了 SR_RESTRART 标 志 。 这 意味 
着 从 可 移植 性 考虑 ， 如 果 我 们 在 捕获 信号 ， 那 么 必须 做 好 select 返 回 EINTR 错 误 的 准备 . 


尽管 timeval 结 构 允 许 我 们 指定 了 一 个 微 秒 级 的 分 辨 率 ， 然 而 内 核 支持 的 真实 分 辩 率 往往 
粗糙 得 多 。 举 例 来 说 ， 许 多 Unix 内 核 把 超时 值 向 上 售 入 成 10 ms 的 倍数 。 另 外 还 涉及 调度 延迟 ， 
也 就 是 说 定时 器 时 间 到 后 ， 内 核 还 需 花 一 点 时 间 调 度 相 应 进程 运行 。 


如 果 timeout 参 数 所 指向 的 timeval 结 构 中 的 tv_sec 成 员 值 超过 ] 亿 秒 ， 那 么 有 些 系统 的 
select 函 数 将 以 EINVAL 错 误 失 败 返 回 。 当 然 这 是 一 个 非常 大 的 超时 值 (超过 3 年 ) ， 不 大 可 
能 有 用 ， 不 过 就 此 指出 : timeval 结 构 能 够 表达 select 不 支持 的 值 。 


imieout 参 数 的 const 限 定 词 表示 它 在 函数 返回 时 不 会 被 select 修 改 。 举 例 来 说 ， 如 果 我 们 
指定 一 个 10s 的 超时 值 ， 不 过 在 定时 器 到 时 之 前 select 就 返回 了 (结果 可 能 是 有 一 个 或 多 个 描 
述 符 就 绪 ， 也 可 能 是 得 到 EINTR 错 误 )， 那 么 timeout 参 数 所 指向 的 timeval 结 构 不 会 被 更 新 成 该 
函数 返回 时 剩余 的 秒 数 。 如 果 我 们 需要 知道 这 个 值 , 那么 必须 在 调用 select 之 前 取得 系统 时 间 ， 
它 返回 后 再 取得 系统 时 间 ， 两 者 相 减 就 是 该 值 〈 任 何 健壮 的 程序 都 得 考虑 到 系统 时 间 可 能 在 这 
段 时 间 内 偶尔 会 被 管理 员 或 ntpda 之 类 守护 进程 调整 )。 


有 些 Linux 版 本 会 修改 这 个 timeval 结 构 。 因 此 从 移植 性 考虑 ， 我 们 应 该 假设 该 timeval 
结构 在 select 返 回 时 未 被 定义 ， 因 而 每 次 调用 select 之 前 都 得 对 它 进行 初始 化 。POSIX 规 
定 对 该 结构 使 用 const 限 定 词 。 


中 间 的 三 个 参数 readset、writeset 和 exceptset 指 定 我 们 要 让 内 核 测试 读 、 写 和 异常 条 件 的 描 
述 符 。 目 前 支持 的 异常 条 件 只 有 两 个 : 

(1) 某 个 套 接 字 的 带 外 数据 的 到 达 ， 我 们 将 在 第 24 章 中 详细 讲述 这 个 异常 条 件 ; 

(2) 某 个 已 置 为 分 组 模式 的 伪 终 端 存在 可 从 其 主 端 读 取 的 控制 状态 信息 ， 本 书 不 讨论 擅 终 
Wig s 

如 何 给 这 3 个 参数 中 的 每 一 个 参数 指定 一 个 或 多 个 描述 符 值 是 一 个 设计 上 的 问题 。select 
使 用 描述 符 集 ， 通 常 是 一 个 整数 数组 ， 其 中 每 个 整数 中 的 每 一 位 对 应 一 个 描述 符 。 举 例 来 说 ， 
假设 使 用 32 位 整数 ， 那 么 该 数组 的 第 一 个 元 素 对 应 于 描述 符 0 一 31， 第 二 个 元 素 对 应 于 描述 符 
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32 一 63， 依 此 类 推 。 所 有 这 些 实现 细节 都 与 应 用 程序 无 关 ， 它 们 隐藏 在 名 为 fa_set 的 数据 类 型 
和 以 下 四 个 宏 中 : 


void FD ZERO(fd set *fdset); /* clear all bits in fdset */ 

void FD SET(int fd, fd set *fdset); /* turn on the bit for fd in fdset */ 

void FD,CLR(int fd, fd set *fdset); /* trun off the bit for fd in fdset */ 
int FD ISSET(int fd, fd set *fdset);  /* is the bit for fd on in fdset ? */ 


我 们 分 配 一 个 ta_set 数 据 类 型 的 描述 符 集 ， 并 用 这 些 宏 设 置 或 测试 该 集合 中 的 每 一 位 ， 也 
可 以 用 C 语 言 中 的 赋值 语句 把 它 赋值 成 另外 一 个 描述 符 集 。 
我 们 所 讨论 的 每 个 描述 符 占用 整数 数组 中 一 位 的 方法 仅仅 是 select 函 数 的 可 能 实现 之 
一 。 不 过 把 描述 符 集中 的 每 个 描述 符 指 称 为 位 (bi) 是 常见 的 ， 例 如 “打开 读 集合 中 表示 监 
听 描 述 符 的 位 ”。 
我 们 将 在 6.10 节 看 到 pol1 函 数 使 用 一 个 完全 不 同 的 表示 方法 : 一 个 可 变 长 度 的 结构 数组 ， 
其 中 每 个 结构 代表 一 个 描述 符 。 


举 个 例子 ， 以 下 代码 用 于 定义 一 个 fd_set 类 型 的 变量 ,然后 打开 描述 符 1、4 和 5 的 对 应 位 : 


fd set rset; 


FD ZERO(&rset); /* initialize the set: all bits off */ 
FD SET(1, &rset); /* turn on bit for fd 1 */ 
FD SET(4, &rset); /* turn on bit for fd 4 */ 
FD SET(5, &rset); /* turn on bit for fd 5 */ 


描述 符 集 的 初始 化 非常 重要 ， 因 为 作为 自动 变量 分 配 的 一 个 描述 符 集 如 果 没 有 初始 化 ， 那 
么 可 能 发 生 不 可 预期 的 后 果 。 

select 函 数 的 中 间 三 个 参数 readset、writeset 和 exceptset 中 ， 如 果 我 们 对 某 一 个 的 条 件 不 感 
兴趣 , 就 可 以 把 它 设 为 空 指针 。 事实 上 , 如 果 这 三 个 指针 均 为 空 , 我 们 就 有 了 一 个 比 Unix 的 sleep 
函数 更 为 精确 的 定时 器 (sleep 睡眠 以 秒 为 最 小 单位 )。pol1 函 数 提供 类 似 的 功能 。APUE 的 图 
C-9 和 图 C-10 给 出 了 一 个 使 用 select 和 pol1 实 现 的 sleep_us 函 数 ， 它 的 睡眠 以 微 秒 为 单位 。 

maxfdp1 参 数 指定 待 测试 的 描述 符 个 数 ， 它 的 值 是 待 测试 的 最 大 描述 符 加 1 (因此 我 们 把 该 
参数 命名 为 maxfdp1)， 描 述 符 0, 1, 2… 一 直到 maxfzp 1-1 均 将 被 测试 。 

头 文件 <sys/select .h> 中 定义 的 FD_sETsIZE 常 值 是 数据 类 型 fd_set 中 的 描述 符 总 数 ， 其 
值 通常 是 1024, 不 过 很 少 有 程序 用 到 那么 多 的 描述 符 。maxfdp1 参 数 迫 使 我 们 计算 出 所 关心 的 最 
大 描述 符 并 告知 内 核 该 值 。 以 前 面 给 出 的 打开 描述 符 1、4 和 5 的 代码 为 例 ， 其 maxfdp71 值 就 是 6。 
是 6 而 不 是 5 的 原因 在 于 : 我 们 指定 的 是 描述 符 的 个 数 而 非 最 大 值 ， 而 描述 符 是 从 0 开始 的 。 


存在 这 个 参数 以 及 计算 其 值 的 额外 负担 纯粹 是 为 了 效率 原因 . 每 个 f9_set 都 有 表示 大 量 
描述 符 ( 典型 数量 为 1024 ) 的 空间 ， 然 而 一 个 普通 进程 所 用 的 数量 却 少 得 多 。 内 核 正 是 通过 
在 进程 与 内 核 之 间 不 复制 描述 符 集中 不 必要 的 部 分 , 从 而 不 测试 总 为 0 的 那些 位 来 提高 效率 的 
(TCPv2 的 16.13 节 ) . 


select 函 数 修改 由 指针 readset、writeset 和 exceptset 所 指向 的 的 描述 符 集 ， 因 而 这 三 个 参数 
都 是 值 -结果 参数 。 调 用 该 函数 时 ， 我 们 指定 所 关心 的 描述 符 的 值 ， 该 函数 返回 时 ， 结 果 将 指示 
哪些 描述 符 已 就 绪 。 该 函数 返回 后 ， 我 们 使 用 Fp_ISsET 宏 来 测试 fa_set 数 据 类 型 中 的 描述 符 。 
描述 符 集 内 任何 与 未 就 绪 描述 符 对 应 的 位 返回 时 均 清 成 0。 为 此 ， 每 次 重新 调用 select 函 数 时 ， 
我 们 都 得 再 次 把 所 有 描述 符 集 内 所 关心 的 位 均 置 为 1。 
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使 用 select 时 最 常见 的 两 个 编程 错误 是 : 忘 了 对 最 大 描述 符 加 1; 忘 了 描述 符 集 是 值 - 结 
果 参 数 。 第 二 个 错误 导致 调用 select 时 ， 描 述 符 集 内 我 们 认为 是 1 的 位 却 被 置 为 0。 


该 函数 的 返回 值 表 示 跨 所 有 描述 符 集 的 已 就 绪 的 总 位 数 。 如 果 在 任何 描述 符 就 绪 之 前 定时 
器 到 时 , 那么 返回 0。 返回 -1 表示 出 错 ( 这 是 可 能 发 生 的 , 臂 如 本 函数 被 一 个 所 捕获 的 信号 中 断 )。 
SVR4 的 早期 版 本 中 select 的 实现 有 一 个 缺陷 : 如 果 返 回 时 多 个 描述 符 集 内 的 同一 位 为 
1， 壁 如 说 某 个 描述 符 既 准备 好 读 又 准备 好 写 的 情况 ,那么 在 函数 返回 值 中 只 计 一 次 .。 当前 的 
版 本 修正 了 这 个 缺陷 。 


6.3.1 描述 符 就 绪 条 件 


我 们 一 直 在 讨论 等 待 某 个 描述 符 准 备 好 1/O〈 读 或 写 ) 或 是 等 待 其 上 发 生 一 个 待 处 理 的 异常 
条 件 〈 带 外 数据 )。 尽 管 可 读 性 和 可 写 性 对 于 普通 文件 这 样 的 描述 符 显 而 易 见 ， 然 而 对 于 引起 
select 返 回 套 接 字 “就 绪 ” 的 条 件 我 们 必须 讨论 得 更 明确 些 (TCPv2 的 图 16-S2 )。 

(1) 满足 下 列 四 个 条 件 中 的 任何 一 个 时 ， 一 个 套 接 字 准 备 好 读 。 

a) 该 套 接 字 接 收 缓冲 区 中 的 数据 字 节 数 大 于 等 于 套 接 字 接 收 缓冲 区 低 水 位 标记 的 当前 大 
小 。 对 这 样 的 套 接 字 执 行 读 操作 不 会 阻塞 并 将 返回 一 个 大 于 0 的 值 (也 就 是 返回 准备 好 读 入 的 数 
据 )。 我 们 可 以 使 用 so_RCVLOWAT 套 接 字 选 项 设置 该 套 接 字 的 低 水 位 标记 。 对 于 TCP 和 UDP 套 接 
字 而 言 ， 其 默认 值 为 1。 

b) 该 连接 的 读 半 部 关闭 (也 就 是 接收 了 FIN 的 TCP 连 接 )。 对 这 样 的 套 接 字 的 读 操作 将 不 阻 
塞 并 返回 9 (也 就 是 返回 EOF )。 

c) 该 套 接 字 是 一 个 监听 套 接 字 且 已 完成 的 连接 数 不 为 0。 对 这 样 的 套 接 字 的 accept 通 常 不 
会 阻塞 ， 不 过 我 们 将 在 15.6 节 讲解 accept 可 能 阻塞 的 一 种 时 序 条 件 。 

d) 其 上 有 一 个 套 接 字 错 误 待 处 理 。 对 这 样 的 套 接 字 的 读 操作 将 不 阻塞 并 返回 -1 (也 就 是 返 
回 一 个 错误 )， 同 时 把 erzno 设 置 成 确切 的 错误 条 件 。 这 些 待 处 理 错 误 (pending error) 也 可 以 
通过 指定 So_ERROR 套 接 字 选 项 调用 getsockopt 获 取 并 清除 。 

(2) 下 列 四 个 条 件 中 的 任何 一 个 满足 时 ， 一 个 套 接 字 准 备 好 写 。 

a) 该 套 接 字 发 送 缓冲 区 中 的 可 用 空间 字 节 数 大 于 等 于 套 接 字 发 送 缓冲 区 低 水 位 标记 的 当前 
大 小 ， 并 且 或 者 该 套 接 字 已 连接 ,或 者 该 套 接 字 不 需要 连接 (如 UDP 套 接 字 )。 这 意味 着 如 果 我 
们 把 这 样 的 套 接 字 设 置 成 非 阻塞 (第 16 章 )， 写 操作 将 不 阻塞 并 返回 一 个 正 值 ( 例 如 由 传输 层 接 
受 的 字 节 数 )。 我 们 可 以 使 用 so_sNDLOWAT 套 接 字 选项 来 设置 该 套 接 字 的 低 水 位 标记 。 对 于 TCP 
和 UDP 套 接 字 而 言 ， 其 默认 值 通 常 为 2048。 

b) 该 连接 的 写 半 部 关闭 。 对 这 样 的 套 接 字 的 写 操作 将 产生 sIGPIPE 信 号 (5.12 节 )。 

c) 使 用 非 阻塞 式 connect 的 套 接 字 已 建立 连接 ， 或 者 connect 已 经 以 失败 告终 。 

d) 其 上 有 一 个 套 接 字 错 误 待 处 理 。 对 这 样 的 套 接 字 的 写 操作 将 不 阻塞 并 返回 -1 (也 就 是 返 
回 一 个 错误 )， 同 时 把 errno 设 置 成 确切 的 错误 条 件 。 这 些 待 处 理 的 错误 也 可 以 通过 指定 
SO_ERROR 套 接 字 选项 调用 getsockopt 获 取 并 清除 。 

(3) 如 果 一 个 套 接 字 存在 带 外 数据 或 者 仍 处 于 带 外 标记 ， 那 么 它 有 异常 条 件 待 处 理 。( 我 们 
将 在 第 24 章 中 讲述 带 外 数据 。) 

我 们 对 “可 读 性 ”和 “可 写 性 ”的 定义 直接 取 自 TCPv2 第 530 ~ 531 页 中 内 核 的 soreadable 
和 sowriteable 宏 .与 此 类 似 ,我 们 对 套 接 字 * 异 常 条 件 " 的 定义 取 自 同一 页 中 的 soo_select 
EAE. 
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注意 : 当 某 个 套 接 字 上 发 生 错误 时 ， 它 将 由 select 标 记 为 既 可 读 又 可 写 。 
接收 低 水 位 标记 和 发 送 低 水 位 标记 的 目的 在 于 : 允许 应 用 进程 控制 在 select 返 回 可 读 或 可 

写 条 件 之 前 有 多 少数 据 可 读 或 有 多 大 空间 可 用 于 写 。 举 例 来 说 ， 如 果 我 们 知道 除非 至 少 存在 64 

个 字 节 的 数据 ， 否 则 我 们 的 应 用 进程 没有 任何 有 效 工 作 可 做 ， 那 么 可 以 把 接收 低 水 位 标记 设置 

为 64， 以 防 少 于 64 个 字 节 的 数据 准备 好 读 时 select 唤 醒 我 们 。 
任何 UDP 套 接 字 只 要 其 发 送 低 水 位 标记 小 于 等 于 发 送 缓冲 区 大 小 (默认 应 该 总 是 这 种 关系 ) 

就 总 是 可 写 的 ， 这 是 因为 UDP 套 接 字 不 需要 连接 。 [165] 
图 6-7 汇 总 了 上 述 导致 select 返 回 某 个 套 接 字 就 绪 的 条 件 。 
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图 6-7 select 返 回 某 个 套 接 字 就 绪 的 条 件 小 结 
6.3.2 select 的 最 大 描述 符 数 


早 些 时 候 我 们 说 过 ， 大 多 数 应 用 程序 不 会 用 到 许多 描述 符 。 璧 如 说 我 们 很 少 能 找到 一 个 使 
用 几 百 个 描述 符 的 应 用 程序 。 然 而 使 用 那么 多 描述 符 的 应 用 程序 确实 存在 ， 它 们 往往 使 用 
select KEHRT. 最 初 设计 select 时 , 操作 系统 通常 对 每 个 进程 可 用 的 最 大 描述 符 数 设置 
TER (4.2BSD 的 限制 为 31)，select 就 使 用 相同 的 限制 值 。 然 而 当今 的 Unix 版 本 允许 每 个 进 
程 使 用 事实 上 无 限 数目 的 描述 符 〈 往 往 仅 受 限 于 内 存 总 量 和 管理 性 限制 )， 因 此 我 们 的 问题 是 : 
这 对 select 有 什么 影响 ? 

许多 实现 有 类 似 于 下 面 的 声明 ， 它 取 自 4.4BSD 的 <sys/tcypes .h> 头 文件 : 

e select uses bitmasks of file descriptors in longs. These macros 

* manipulate such bit fields (the filesystem macros use chars). 

* FD SETSIZE may be defined by the user, but the default here should 

* be enough for most uses. 

itu FD, SETSIZE 


#define FD SETSIZE 256 
#endif 


这 使 我 们 想到 ， 可 以 在 包括 该 头 文件 之 前 把 FD_sETsIZE 定 义 为 某 个 更 大 的 值 以 增加 
select 所 用 描述 符 集 的 大 小 。 不 幸 的 是 ， 这 样 做 通常 行 不 通 。® 
为 了 弄 清楚 到 底 出 了 什么 差错 ， 请 注意 TCPv2 的 图 16-53 声 明了 3 个 在 内 核 中 的 描述 符 集 ， 
并 把 内 核 的 FD_SETSIZE 定 义 作为 上 限 使 用 。 因 此 增 大 描述 符 集 大 小 的 唯一 方法 是 先 增 大 
FD_SETSIZE 的 值 ， 再 重新 编译 内 核 。 不 重新 编译 内 核 而 改变 其 值 是 不 够 的 。 












(D FD_sETsIzE 常 值 的 声明 一 直 是 在 头 文件 <sys/types.h> 中 (4.4BSD 和 4.4BSD-Lite2), FLEM HW A BSD A 
核 和 源 自 SVR4 的 内 核 把 它 改 放 在 头 文件 <sys/select .n> 中 。 值 得 注意 的 是 ， 有 些 应 用 程序 《典型 例子 是 需要 
复 选 大 基 描 述 符 的 事件 驱动 型 服务 器 程序 ， 所 和 需 描述 符 量 超过 1024 个 ) 开始 改 用 pol1 代 替 select， 这 样 可 以 避 
免 描 述 符 有 限 的 问题 。 还 要 注意 的 是 ，select 的 典型 实现 在 描述 符 数 增 大 时 可 能 存在 扩展 性 问题 。 


N 
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有 些 厂家 正在 将 select 的 实现 修改 为 允许 进程 将 FD_sETSIZE 定 义 为 比 默认 值 更 大 的 某 个 
值 。 BSD/OS 已 改变 了 内 核实 现 以 允许 更 大 的 描述 符 集 , 并 定义 了 四 个 新 的 FD_xxx 宏 用 于 动态 分 
配 并 操纵 这 样 的 描述 符 集 。 然 而 从 可 移植 性 考虑 ， 使 用 大 描述 符 集 需 要 小 心 。 
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现在 我 们 可 以 使 用 select 重 写 5.5 节 中 的 str_cli 函 数 了 ,这样 服 务 器 进程 一 终止 ,客户 就 
能 马上 得 到 通知 。 早 先 那个 版 本 的 问题 在 于 : 当 套 接 字 上 发 生 某 些 事件 时 ， 客 户 可 能 阻塞 于 
fgets 调 用 。 新 版 本 改 为 阻塞 于 select 调 用 ， 或 是 等 待 标准 输入 可 读 ， 或 是 等 待 套 接 字 可 读 。 
图 6-8 展 示 了 调用 select 所 处 理 的 各 种 条 件 。 


客户 
数据 或 EOF 一 一 >9 标准 输入 在 标准 输入 或 套 接 字 
上 select 可 读 条件 
套 接 字 
错误 EOF 


TCP 


RST 数据 FIN 
图 6-8 str_cli 函 数 中 由 select 处 理 的 各 种 条 件 
客户 的 套 接 字 上 的 三 个 条 件 处 理 如 下 。 
(1) 如 果 对 端 TCP 发 送 数据 ， 那 么 该 套 接 字 变 为 可 读 ， 并 且 reaa 返 回 一 个 大 于 0 的 值 〈 即 读 
入 数据 的 字 节 数 )。 
(2) 如 果 对 端 TCP 发 送 一 个 FIN 〈 对 端 进程 终止 )， 那 么 该 套 接 字 变 为 可 读 ， 并 且 read 返 回 0 
(EOF). 
(3) 如 果 对 端 TCP 发 送 一 个 RST〈 对 端 主机 崩溃 并 重新 启动 )， 那 么 该 套 接 字 变 为 可 读 ， 并 
且 reaG 返 回 -1， 而 errno 中 含有 确切 的 错误 码 。 
图 6-9 给 出 了 这 个 新 版 本 的 源 代码 。 
调用 select 
8-13 ”我 们 只 需要 一 个 用 于 检查 可 读 性 的 描述 符 集 。 该 集合 由 FD_zERo 初 始 化 ， 并 用 FD_SET 
打开 两 位 : 一 位 对 应 于 标准 IO 文件 指针 fp， 一 位 对 应 于 套 接 字 sockfae。fileno 函 数 
把 标准 UVO 文 件 指针 转换 为 对 应 的 描述 符 。select〈 和 poll) 只 工作 在 描述 符 上 。 
计算 出 两 个 描述 符 中 的 较 大 值 后 ， 调 用 select。 在 该 调用 中 ， 写 集合 指针 和 异常 集合 
指针 都 是 空 指针 。 最 后 一 个 参数 〈 时 间 限 制 ) 也 是 空 指针 ， 因 为 我 们 希望 本 调用 阻塞 
到 某 个 描述 符 就 绪 为 止 。 
处 理 可 读 套 接 字 
14-18 如果 在 select 返 回 时 套 接 字 是 可 读 的 ， 那 就 先 用 readqline 读 入 回 射 文本 行 ， 再 用 
fputs 输 出 它 。 
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———————————— — select/strcliselectÜ1.c 
1 #include "unp.h" 
2 void 
3 str cli(FILE *fp, int sockfd) 
4t 
5 int maxfdp1; 
6 fd_set rset; 
7 char sendline[MAXLINE], recvline[MAXLINE]; 
8 FD ZERO(&rset); 
9 for (: : ) ( 
10 FD SET(fileno(fp), &rset); 
11 FD SET(sockfd, &rset); 
12 maxfdpl = max(fileno(fp), sockfd) + 1; 
13 Select(maxfdpl, &rset, NULL, NULL, NULL); 
14 if (FD ISSET(sockfd, &rset)) ( /* socket is readable */ 
15 if (Readline(sockfd, recvline, MAXLINE) -- 0) 
16 err quit("str cli: server terminated prematurely"); 
17 Fputs(recvline, stdout); 
18 ) 
19 if (FD ISSET(fileno(fp), &rset)) ( /* input is readable */ 
20 if (Fgets(sendline, MAXLINE, fp) -- NULL) 
21 return; /* all done */ 
22 Writen(sockfd, sendline, strlen(sendline)); 
23 } 
24 } 
25 ) 


LL — select/strcliselectO l.c 


图 6-9 ”使 用 select 的 str_cli 函 数 的 实现 〈 在 图 6-13 中 改进 ) 


处 理 可 读 输入 

19-23 如果 标准 输入 可 读 ， 那 就 先 用 fgets 读 入 一 行文 本 ， 再 用 writen 把 它 写 到 套 接 字 中 。 
请 注意 ， 这 个 版 本 使 用 了 与 $.5$ 节 的 版 本 相同 的 四 个 IO 函数 : fgets. writen, readline 

和 fputs， 不 过 它们 在 本 函数 中 的 驱动 流 发 生 了 变化 。 新 的 版 本 是 由 select 调 用 来 驱动 的 ， 而 

旧 的 版 本 则 是 由 fgets 调 用 来 驱动 的 。 与 图 5-5 相 比 ， 图 6-9 中 的 代码 仅 增加 了 几 行 ,就 大 大 提高 

了 客户 程序 的 健壮 性 。 


不 幸 的 是 ， 我 们 的 stz_cli 函 数 仍然 不 正确 。 首 先 让 我 们 回 到 其 最 初版 本 ， 即 图 $-5。 它 以 
停 -等 方式 工作 ， 这 对 交互 式 使 用 是 合适 的 : 发 送 一 行文 本 给 服务 器 ， 然 后 等 待 应答 。 这 段 时 间 
是 往返 时 间 Cround-trip time, RTT) 加 上 服务 器 的 处 理 时 间 ( 对 于 简单 的 回 射 服务 器 而 言 ， 处 
理 时 间 几 乎 为 0)。 如 果 知 道 了 客户 与 服务 器 之 间 的 RTT， 我 们 便 可 以 估计 出 回 射 固 定数 目的 行 
需 花 多 长 时 间 。 

ping 程 序 是 测量 RTT 的 一 个 简单 方法 。 我 们 曾经 从 自己 的 主机 solaris 往 主机 connix .com 
执行 ping 命 令 ， 得 到 30 次 测量 的 平均 RTT 值 为 175 ms。TCPv1 第 89 页 说 明 ， 这 些 ping 测 量 所 用 
的 是 长 度 为 84 字 节 的 下 数据 报 。 如 果 提 取 Solaris 上 termcap 文 件 的 前 2000 行 ， 那么 所 得 文件 大 小 
为 98349 个 字 节 ， 平 均 每 行 49 个 字 节 。 再 加 上 IP 首 部 《20 个 字 节 ) 和 TCP 首 部 〈20 个 字 节 ) 的 大 
小 ， 那 么 每 行 对 应 的 分 组 大 小 约 为 89 个 字 节 ， 基 本 与 ping 分 组 的 大 小 一 致 。 这 么 一 来 ， 我 们 可 
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以 估算 出 所 有 2000 行 文本 的 客户 处 理 时 间 大 约 为 350 秒 (2000X 0.175 秒 )。 如 果 运 行 第 5 章 中 的 
TCP 回 射 客户 程序 ， 得 到 的 真实 时 间 大 约 为 354 秒 ， 与 我 们 的 估计 非常 接近 。 
如 果 我 们 把 客户 与 服务 器 之 间 的 网 络 作为 全 双 工 管道 来 考虑 , 请 求 是 从 客户 向 服务 器 发 送 ， 
应 答 从 服务 器 向 客户 发 送 ， 那 么 图 6-10 展 示 了 这 样 的 停 -等 方式 。 
时 刻 0: 





图 6-10 停 -等 方式 的 时 间 线 : 交互 式 输入 


客户 在 时 刻 0 发 出 请 求 ， 我 们 假设 RTT 为 8 个 时 间 单 位 。 其 应 答 在 时 刻 4 发 出 并 在 时 刻 7 接收 
到 。 我 们 还 假设 没有 服务 器 处 理 时 间 而 且 请 求 大 小 与 应 答 大 小 相同 。 图 6-10 仅 仅 展 示 了 客户 与 
服务 器 之 间 的 数据 分 组 ， 而 忽略 了 同样 穿越 网 络 的 TCP 确 认 。 

既然 一 个 分 组 从 管道 的 一 端 发 出 到 到 达 管道 的 另 一 端 存 在 延迟 ， 而 管道 是 全 双 工 的 ， 就 本 
例子 而 言 ， 我 们 仅仅 使 用 了 管道 容量 的 118。 这 种 停 -等 方式 对 于 交互 式 输入 是 合适 的 ， 然 而 由 
于 我 们 的 客户 是 从 标准 输入 读 并 往 标准 输出 写 ， 在 Unix 的 shell 环 境 下 重 定向 标准 输入 和 标准 输 
出 又 是 轻而易举 之 事 ， 我 们 可 以 很 容易 地 以 批量 方式 运行 客户 。 当 我 们 把 标准 输入 和 标准 输出 
重 定向 到 文件 来 运行 新 的 客户 程序 时 ， 却 发 现 输出 文件 总 是 小 于 输入 文件 〈 而 对 于 回 射 服务 器 

而 言 ， 它 们 理应 相等 )。 
为 了 搞 清 楚 到 底 发 生 了 什么 ， 我 们 应 该 意识 到 在 批量 方式 下 ， 客 户 能 够 以 网 络 可 以 接受 的 
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最 快速 度 持续 发 送 请 求 , 服务 器 以 相同 的 速度 处 理 它们 并 发 回应 答 。 这 就 导致 时 刻 7 时 管道 充满 ， 
如 图 6-11 所 示 。 





| CENT es le BE 4 | OA $5 
图 6-11 填充 客户 与 服务 器 之 间 的 管道 ; 批量 方式 


这 里 我 们 假设 发 出 第 一 个 请 求 后 ， 立 即 发 出 下 一 个 ， 紧 接着 再 下 一 个 。 我 们 还 假设 客户 能 
够 以 网 络 可 以 接受 它们 的 最 快速 度 持续 发 送 请 求 ， 并 且 能 够 以 网 络 可 提供 给 它们 的 最 快速 度 处 
理应 答 。 


这 里 我 们 忽略 了 涉及 TCP 批 量 数据 流 的 许多 微 录 问题， 例如 限制 数据 在 一 个 全 新 的 或 空 
闲 的 连接 上 的 发 送 速率 的 慢 启动 算 法 ， 以 及 返回 的 ACK。 这 些 都 在 TCPv1 的 第 20 章 中 讨论 。 


为 了 搞 清楚 图 6-9 中 的 str_cli 函 数 存在 的 问题 ， 我 们 假设 输入 文件 只 有 9 行 。 最 后 一 行 在 
时 刻 8 发 出 ， 如 图 6-11 所 示 。 写 完 这 个 请 求 后 ， 我 们 并 不 能 立即 关闭 连接 ， 因 为 管道 中 还 有 其 他 
的 请 求 和 应 答 。 问 题 的 起 因 在 于 我 们 对 标准 输入 中 的 EOF 的 处 理 : str_cli 函 数 就 此 返回 到 
main 函 数 ， 而 main 函 数 随后 终止 。 然 而 在 批量 方式 下 ， 标 准 输入 中 的 EOF 并 不 意味 着 我 们 同 
时 也 完成 了 从 套 接 字 的 读 入 ; 可 能 仍 有 请 求 在 去 往 服务 器 的 路 上 ， 或 者 仍 有 应 答 在 返回 客户 的 
路 上 。 

我 们 需要 的 是 一 种 关闭 TCP 连 接 其 中 一 半 的 方法 。 也 就 是 说 ,我们 想 给 服务 器 发 送 一 个 FIN， 
告诉 它 我 们 已 经 完成 了 数据 发 送 ， 但 是 仍然 保持 套 接 字 描述 符 打开 以 使 读 取 。 这 由 将 在 下 一 节 
PHA AY shut down BOK TEM. 

一 般 地 说 ， 为 提升 性 能 而 引入 缓冲 机 制 增加 了 网 络 应 用 程序 的 复杂 性 ， 图 6-9 所 示 的 代码 就 
遭受 这 种 复杂 性 之 害 。 考 虑 有 多 个 来 自 标准 输入 的 文本 输入 行 可 用 的 情况 。select 将 使 第 20 行 
代码 用 fgets 读 取 输 入 ， 这 又 转 而 使 已 可 用 的 文本 输入 行 被 读 入 到 stdio 所 用 的 缓冲 区 中 。 然 而 
fgets 只 返回 其 中 第 一 行 ， 其 余 输 入 行 仍 在 stdio 缓 冲 区 中 。 第 22 行 代码 把 fgets 返 回 的 单个 输入 
行 写 给 服务 器 ， 随 后 select 再 次 被 调用 以 等 待 新 的 工作 ， 而 不 管 stdio 绥 冲 区 中 还 有 额外 的 输入 
行 待 消费 。 究 其 原因 在 于 select 不 知道 stdio 使 用 了 缓冲 区 一 一 它 只 是 从 read 系 统 调用 的 角度 指 
出 是 否 有 数据 可 读 ， 而 不 是 从 fgets 之 类 调用 的 角度 考虑 。 基 于 上 述 原因 ， 温 合 使 用 stdio 和 
select 被 认为 是 非常 容易 犯错 误 的 ， 在 这 样 做 时 必须 极其 小 心 。 

同样 的 问题 存在 于 图 6-9 的 readline 调 用 中 。 这 回 select 不 可 见 的 数据 不 是 隐藏 在 stdio 缓 
冲 区 中 ， 而 是 隐藏 在 readiine 自 己 的 缓冲 区 中 。 回 顾 3.9 节 我 们 提供 的 一 个 可 以 看 到 readline 
缓冲 区 的 函数 , 因此 可 能 的 解决 办 法 之 一 是 修改 我 们 的 代码 , 在 调用 select 之 前 使 用 那个 函数 ， 
以 查看 是 否 存 在 已 经 读 入 而 尚未 消费 的 数据 。 然 而 为 了 处 理 read1line 缓 冲 区 中 既 可 能 有 不 完整 
的 输入 行 (意味 着 我 们 需要 继续 读 入 ), 也 可 能 有 一 个 或 多 个 完整 的 输入 行 ( 这 些 行 我 们 可 以 直 
接 消 费 ) 这 两 种 情况 而 引入 的 复杂 性 会 迅速 增长 到 难以 控制 的 地 步 。 

我 们 将 在 6.7 节 给 出 的 str_cli 改 进 后 版 本 中 解决 这 些 缓冲 区 问题 。 


136 $63 LO 复 用 : select fv poll 函数 


ENACT MIHI GESTAM BN He I IS DA psu NO QN UAR Nu LAESA CIBUS HR mI ARN RRS QN A Arte 


6.6 shutdown 函数 








终止 网 络 连接 的 通常 方法 是 调用 close 函 数 。 不 过 close 有 了 两 个 限制 , 却 可 以 使 用 shutaown 
来 避免 。 

(1) close 把 描述 符 的 引用 计数 减 1， 仅 在 该 计数 变 为 0 时 才 关 闭 套 接 字 。 我 们 已 在 4.8 节 讨论 
过 这 一 点 。 使 用 shutdown 可 以 不 管 引 用 计数 就 激发 TCP 的 正常 连接 终止 序列 ( 图 2-5 中 由 FIN 开 
始 的 4 个 分 节 )。 

(2) close 终 止 读 和 写 两 个 方向 的 数据 传送 。 既 然 TCP 连 接 是 全 双 工 的 ， 有 时 候 我 们 需要 告 
知 对 端 我们 已 经 完成 了 数据 发 送 ， 即 使 对 端 仍 有 数据 要 发 送 给 我 们 。 这 就 是 我 们 在 前 一 节 中 遇 
到 的 str_cli 函 数 在 批量 输入 时 的 情况 。 图 6-12 展 示 了 这 样 的 情况 下 典型 的 函数 调用 。 


客户 服务 器 
write 
write read 返 回 大 于 0 
shutdown read 返 回 大 于 0 
readi 反 回 0 
write 
read 返 回 大 于 0 write 
read 返 回 大 于 0 close 


read 返回 0 





图 6-12 ”调用 shutdown 关 闭 一 半 TCP 连 接 
#include <sys/socket.h> 


int shutdown(int sockfd, int howto); 


返回 : 车 成 功 则 为 0， 若 出 错 则 为 -1 





该 函数 的 行为 依赖 于 howto 参 数 的 值 。 
SHUT RD 关闭 连接 的 读 这 一 半 一 一 套 接 字 中 不 再 有 数据 可 接收 ， 而 且 套 接 字 接收 缓冲 区 
中 的 现 有 数据 都 被 丢弃 。 进 程 不 能 再 对 这 样 的 套 接 字 调 用 任何 读 函 数 。 对 一 个 
TCP 套 接 字 这 样 调用 shutdown 函 数 后 ， 由 该 套 接 字 接 收 的 来 自 对 端的 任何 数据 
都 被 确认 ， 然 后 悄然 丢弃 。 
默认 情形 下 ， 写 入 一 个 路 由 套 接 字 ( 第 18 章 ) 中 的 所 有 数据 都 被 作为 同一 个 主 
机 上 所 有 路 由 套 接 字 的 可 能 输入 环 回 . 有 些 程序 把 第 二 个 参数 指定 为 SHUT_RD 来 调 
用 shutdown 函 数 以 防止 环 回复 制 。 防 止 环 回复 制 的 另 一 种 方法 是 关闭 
SO, USELOOPBACK HET if, 34, 


SHUT WR 关闭 连接 的 写 这 一 半 一 一 对 于 TCP 套 接 字 ， 这 称 为 半 关 闭 Chalf-close, JLTCPv1 
的 18.5 节 )。 当 前 留 在 套 接 字 发 送 缓冲 区 中 的 数据 将 被 发 送 掉 ， 后 跟 TCP 的 正常 
连接 终止 序列 。 我 们 已 经 说 过 ， 不 管 套 接 字 描述 符 的 引用 计数 是 否 等 于 0， 这 样 
的 写 半 部 关闭 照样 执行 。 进 程 不 能 再 对 这 样 的 套 接 字 调 用 任何 写 函 数 。 


6.7 str cli 函数 (再 修订 版 ) 137 





SHUT RDWR ”连接 的 读 半 部 和 写 半 部 都 关闭 一 一 这 与 调用 shutdown 两 次 等 效 : 第 一 次 调用 
指定 SHUT_RD， 第 二 次 调用 指定 SHOT_WR。 
图 7-12 将 汇总 进程 调用 shutdaown 或 close 的 各 种 可 能 。close 的 操作 取决 于 So_LINGER 套 接 
字 选 项 的 值 。 
这 三 个 SHUT_xxx 名 字 由 POSIX 规 范 定义 。howto 参 数 的 典型 值 将 会 是 0 (关闭 读 半 部 ) 1 
(关闭 写 半 部 ) 和 2 ( 读 半 部 和 写 半 部 都 关闭 ) 。 
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图 6-13 给 出 str_cli 函 数 的 改进 〈 且 正确 ) 版 本 。 它 使 用 了 select 和 shutdown， 其 中 前 者 
只 要 服务 器 关闭 它 那 一 端的 连接 就 会 通知 我 们 ， 后 者 允许 我 们 正确 地 处 理 批量 输入 。 这 个 版 本 
还 废弃 了 以 文本 行为 中 心 的 代码 , 改 而 针对 缓冲 区 操作 ， 从 而 消除 了 6. 5.5 节 中 提出 的 复杂 性 问题 。 





elect/strcliselect02.c 

1 #include "unp.h* 
2 void 
3 str cli(FILE *fp, int sockfd) 
4t 
5 int maxfdpl, stdineof; 
6 fd set rset; 
7 char buf [MAXLINE] ; 
8 int n; 
9 stdineof - 0; 
10 FD ZERO(&rset); 
11 for (;;)€ 
12 if (stdineof == 0) 
13 FD SET(fileno(fp), &rset); 
14 FD SET(sockfd, &rset); 
15 maxfdpl = max(fileno(fp), sockfd) + 1; 
16 Select(maxfdpl, &rset, NULL, NULL, NULL); 
17 if (FD ISSET(sockfG, &rset)) ( /* socket is readable */ 
18 if ( (n = Read(sockfd, buf, MAXLINE)) == 0) { 
19 if (stdineof -- 1) 
20 return; /* normal termination */ 
21 else 
22 err quit("str cli: server terminated prematurely"); 
23 } 
24 Write(fileno(stdout), buf, n); 
25 } 
26 if (FD ISSET(fileno(fp), &rset)) { /* input is readable */ 
27 if ( (n = Read(fileno(fp), buf, MAXLINE)) == 0) ( 
28 stdineof - 1; 
29 Shutdown(sockfd, SHUT. WR); /* send FIN */ 
30 FD CLR(fileno(fp), &rset); 
31 continue; 
32 } 
33 Writen(sockfd, buf, n); 
34 } 
35 } 
36 ) 

M ———————————— —— ——— elect/strcliselect02.c 


图 6-13 ”使 用 select 正 确 处 理 BOF 的 str_cli 函 数 
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5-8 stdineof 是 一 个 初始 化 为 0 的 新 标志 。 只 要 该 标志 为 0， 每 次 在 主 循环 中 我 们 总 是 
select 标 准 输入 的 可 读 性 。 

17-25 ” 当 我 们 在 套 接 字 上 读 到 EOF 时 , 如 果 我 们 已 在 标准 输入 上 遇 到 EOF, 那 就 是 正常 的 终止 ， 
于 是 函数 返回 ， 但 是 如 果 我 们 在 标准 输入 上 没有 遇 到 EOF， 那 么 服务 器 进程 已 过 早 终 
止 。 我 们 改 用 reaa 和 write 对 缓冲 区 而 不 是 文本 行进 行 操作 ， 使 得 select 能 够 如 期 地 

174 工作 。 

26-34 ” 当 我 们 在 标准 输入 上 碰 到 EOF 时 , 我 们 把 新 标志 staineof 置 为 1， 并 把 第 二 个 参数 指定 
为 SHUT_WR 来 调用 shutdown 以 发 送 FIN。 这儿 我 们 也 改 用 reada 和 write 对 缓冲 区 而 不 是 
文本 行进 行 操作 。 

我 们 对 str_cli 函 数 的 讨论 还 没有 结束 。16.2 节 中 我 们 将 开发 一 个 使 用 非 阻 塞 式 IHO 模 型 的 

版 本 ，26.3 节 中 我 们 将 开发 一 个 使 用 线程 的 版 本 。 
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我 们 可 以 回顾 5.2 节 和 5.3 节 中 讲解 的 TCP 回 射 服务 器 程序 ， 把 它 重 写成 使 用 select 来 处 理 
任意 个 客户 的 单 进程 程序 ， 而 不 是 为 每 个 客户 派生 一 个 子 进程 。 在 给 出 具体 代码 之 前 ， 让 我 们 
先 查 看 用 以 跟踪 客户 的 数据 结构 。 图 6-14 给 出 了 第 一 个 客户 建立 连接 前 服务 器 的 状态 。 


服务 器 





ASE 


图 6-14 ”第 一 个 客户 建立 连接 前 的 服务 器 状态 


服务 器 有 单个 监听 描述 符 ， 我 们 用 一 个 圆 点 来 表示 。 

服务 器 只 维护 一 个 读 描述 符 集 , 如 图 6-15 所 示 。 假设 服务 器 是 在 前 台 启 动 的 , 那么 描述 符 0、 
1 和 2 将 分 别 被 设置 为 标准 输入 、 标 准 输出 和 标准 错误 输出 。 可 见 监 听 套 接 字 的 第 一 个 可 用 描述 
符 是 3。 图 6-15 还 展示 了 一 个 名 为 client 的 整 型 数组 ， 它 含有 每 个 客户 的 已 连接 套 接 字 描述 符 。 
该 数组 的 所 有 元 素 都 被 初始 化 为 -1。 


client []: fdo fdl  fd2 fd3 


rset: |i 
| maxfd 41-24 | 





Kde-15 ” 仅 有 一 个 监听 套 接 字 的 TCP 服 务 器 的 数据 结构 
175 描述 符 集 中 唯一 的 非 0 项 是 表示 监听 套 接 字 的 项 ， 因 此 select 的 第 一 个 参数 将 为 4。 
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当 第 一 个 客户 与 服务 器 建立 连接 时 ， 监 听 描 述 符 变 为 可 读 ， 我 们 的 服务 器 于 是 调用 


accept。 在 本 例 的 假设 下 ， 由 accept 返 回 的 新 的 已 连接 描述 符 将 是 4。 图 6-16 展 示 了 从 客户 
到 服务 器 的 连接 。 





图 6-16 第 一 个 客户 建立 连接 后 的 TCP 服 务 器 


从 现在 起 , 我们 的 服务 器 必须 在 其 client 数 组 中 记 住 每 个 新 的 已 连接 描述 符 ， 并 把 它 加 到 
描述 符 集中 去 。 图 6-17 展 示 了 这 样 更 新 后 的 数据 结构 。 


client []: fdo fdl fd2  fd3 fd4 





| maxfd+1=5 





图 6-17 第 一 个 客户 连接 建立 后 的 数据 结构 
稍 后 ， 第 二 个 客户 与 服务 器 建立 连接 ， 图 6-18 展 示 了 这 种 情形 。 





图 6-18 第 二 个 客户 建立 连接 后 的 TCP 服 务 器 
新 的 已 连接 描述 符 〈 假 设 是 S) 必须 被 记 住 ， 从 而 给 出 如 图 6-19 所 示 的 数据 结构 。 


client [] : fa0 fdl  fd2 fd  fd4 fd5 — ^— adi 
rset: T 





图 6-19 ”第 二 个 客户 连接 建立 后 的 数据 结构 
我 们 接着 假设 第 一 个 客户 终止 它 的 连接 。 该 客户 的 TCP 发 送 一 个 FIN, 使 得 服务 器 中 的 描述 


177 
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符 4 变 为 可 读 。 当 服务 器 读 这 个 已 连接 套 接 字 时 ，read 将 返回 0。 我 们 于 是 关闭 该 套 接 字 并 相应 
地 更 新 数据 结构 : 把 client [0] 的 值 置 为 -1， 把 描述 符 集中 描述 符 4 的 位 设置 为 0， 如 图 6-20 所 
示 。 注 意 ，maxfd 的 值 没 有 改变 。 

client [] : fdo fàl fd2 fd3 fa4 fd5 





| maxfd+1=6 | 


[FD SETSIZE-1] 
图 6-20 ”第 一 个 客户 终止 连接 后 的 数据 结构 


总 之 ， 当 有 客户 到 达 时 ， 我 们 在 client 数 组 中 的 第 一 个 可 用 项 〈 即 值 为 -1 的 第 一 个 项 ) 中 
记录 其 已 连接 套 接 字 的 描述 符 。 我 们 还 必须 把 这 个 已 连接 描述 符 加 到 读 描述 符 集中 。 变 量 maxi 
是 client 数 组 当前 使 用 项 的 最 大 下 标 ， 而 变量 maxfa (加 1 之 后 ) 是 select 函 数 第 一 个 参数 的 
当前 值 。 对 于 本 服务 器 所 能 处 理 的 最 大 客户 数目 的 限制 是 以 下 两 个 值 中 的 较 小 者 : FD_SETSIZE 
和 内 核 允 许 本 进程 打开 的 最 大 描述 符 数 〈 我 们 在 6.3 节 结尾 处 讨论 过 它 )。 

图 6-21 给 出 了 这 个 版 本 服务 器 程序 的 前 半 部 分 。 


1 finclude "unp.h* 








tcpcliserv/tcpservselectO1.c 


2 int 
3 main(int argc, char **argv) 


4 { 
5 int i, maxi, maxfd, listenfd, connfd, sockfd; 
6 int nready, client [FD_SETSIZE]; 
7 ssize_t n; 

fd_set rset, allset; 


8 
9 char buf [MAXLINE); 
0 
1 


1 Socklen t clilen; 

1 struct sSockaddr in cliaddr, servaddr; 

12 listenfd - Socket(AF INET, SOCK STREAM, 0); 

13 bzero(&servaddr, sizeof(servaddr)); 

14 servadádr.sin family = AF_INET; 

15 servaddr.sin addr.s addr - htonl(INADDR ANY); 

16 Servaddr.sin port = htons(SERV. PORT); 

17 Bind(listenfd, (SA *) &servaddr, sizeof (servaddr)); 

18 Listen(listenfd, LISTENQ); 

19 maxfd = listenfd; /* initialize */ 

20 maxi - -1; /* index into client[] array */ 
21 for (i = 0; i « FD SETSIZE; i++) 

22 client{i] = -1; /* -1 indicates available entry */ 
23 FD ZERO(&allset); 

24 FD SET(listenfd, &allset); 





一 tcpcliserv/tcpservselectO1.c 


图 6-21 ”使 用 单 进 程 和 select 的 TCP 服 务 器 程序 ， 初 始 化 


创建 监听 套 接 字 并 为 调用 select 进 行 初 始 化 
12-24 创建 监听 套 接 字 的 步骤 与 早先 版 本 一 样 : socket、bind 和 1isten。 我 们 按照 一 开始 
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select 的 唯一 描述 符 是 监听 描述 符 这 一 前 提 初 始 化 我 们 的 数据 结构 。 
main 函 数 的 后 半 部 分 示 于 图 6-22 中 。 178 


tcpcliserv/tcpservselectO1.c 


25 for (7 7) { 

26 rset - aliset; /* structure assignment */ 

27 nready = Select (maxfd+1, &rset, NULL, NULL, NULL); 

28 if (FD ISSET(listenfd, &rset)) ( /* new client connection */ 
29 clilen = sizeof(cliaddr); 

30 connfd - Accept(listenfd, (SA *) &cliaddr, &clilen); 
31 for (i = 0; i < FD.SETSIZE; i++) 

32 if (client[i] < 0) { 

33 client[i] = connfd; /* save descriptor */ 
34 break; 

35 } 

36 if (i == FD_SETSIZE) 

37 err quit("too many clients"); 

38 FD SET(connfd, &allset); /* add new descriptor to set */ 
39 if (connfd > maxfd) 

40 maxfd - connfd; /* for select */ 

41 if (i » maxi) 

42 maxi - i; /* max index in client[] array */ 
43 if (--nready <= 0) 

44 continue; /* no more readable descriptors */ 
45 ) 

46 for (i = 0; i <= maxi; i++) ( /* check all clients for data */ 
47 if ( (sockfd = client[il]) < 0) 

48 continue; 

49 if (FD ISSET(sockfd, &rset)) { 

50 if ( (n = Read(sockfd, buf, MAXLINE)) == 0) ( 

51 /*connection closed by client */ 

52 Close(sockfd); 

53 FD CLR(sockfd, &allset); 

54 client[i] = -1; 

55 ) else 

56 Writen(sockfd, buf, n); 

57 if (--nready «- 0) 

58 break; /* no more readable descriptors */ 
59 ) 

60 ) 

61 } 


62 } 
SH —— «cpcliserv/tepservselect01.c 


图 6-22 ”使 用 单 进程 和 select 的 TCP 服 务 器 程序 ， 循环 


阻塞 于 select 

26-27 ， select 等 待 某 个 事件 发 生 : 或 是 新 客户 连接 的 建立 ， 或 是 数据 、FIN 或 RST 的 到 达 。 

accept 新 的 连接 

28-45 ”如 果 监 听 套 接 字 变 为 可 读 ， 那 么 已 建立 了 一 个 新 的 连接 。 我 们 调用 accept 并 相应 地 更 
新 数据 结构 ， 使 用 client 数 组 中 的 第 一 个 未 用 项 记录 这 个 已 连接 描述 符 。 就 绪 描述 符 
数目 减 1， 若 其 值 变 为 0， 就 可 以 避免 进入 下 一 个 for 循 环 。 这 样 做 让 我 们 可 以 使 用 
select 的 返回 值 来 避免 检查 未 就 绪 的 描述 符 。 
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检查 现 有 连接 

46-60 “对 于 每 个 现 有 的 客户 连接 ， 我 们 要 测试 其 描述 符 是 否 在 select 返 回 的 描述 符 集中 。 如 
果 是 就 从 该 客户 读 入 一 行文 本 并 回 射 给 它 。 如 果 该 客户 关闭 了 连接 , 那么 reaq 将 返回 0， 
我 们 于 是 相应 地 更 新 数据 结构 。 

我 们 从 不 减少 maxi 的 值 ， 不 过 每 次 有 客户 关闭 其 连接 时 ， 我 们 可 以 检查 是 否 存在 这 样 的 可 
能 性 。 

本 服务 器 程序 版 本 比 图 $-2 和 图 5$-3 所 示 的 版 本 复杂 ， 不 过 它 避 免 了 为 每 个 客户 创建 一 个 新 
进程 的 所 有 开销 ， 因 而 是 一 个 使 用 select 的 精彩 例子 。 尽 管 如 此 ， 我 们 仍 将 在 16.6 节 讲解 本 服 
务 器 程序 存在 的 一 个 问题 ， 不 过 通过 将 监听 套 接 字 设 置 成 非 阻塞 ， 然 后 检查 并 忽略 来 自 accept 
的 若干 错误 可 以 很 容易 地 解决 该 问题 。 


拒绝 服务 型 攻击 


不 幸 的 是 ， 我 们 刚刚 给 出 的 服务 器 程序 存在 一 个 问题 。 考 虑 一 下 如 果 有 一 个 恶意 的 客户 连 
接 到 该 服务 器 ， 发 送 一 个 字 节 的 数据 〈 不 是 换行 符 ) 后 进入 睡眠 ， 将 会 发 生 什 么 。 服 务 器 将 调 
用 read， 它 从 客户 读 入 这 个 单字 节 的 数据 ， 然 后 阻塞 于 下 一 个 read 调 用 ， 以 等 竺 来自 该 客户 的 
其 余数 据 。 "服务 器 于 是 因为 这 么 一 个 客户 而 被 阻塞 〈 称 它 被 “ 挂 起 ”也 许 更 确切 些 )， 不 能 再 
为 其 他 任何 客户 提供 服务 (不论 是 接受 新 的 客户 连接 还 是 读 取现 有 客户 的 数据 )， 直到 那个 恶意 
客户 发 出 一 个 换行 符 或 者 终止 为 止 。 

这 里 的 一 个 基本 概念 是 ， 当 一 个 服务 器 在 处 理 多 个 客户 时 ， 它 绝对 不 能 阻塞 于 只 与 单个 客 
户 相 关 的 某 个 函数 调用 。 否 则 可 能 导致 服务 器 被 挂 起 ， 拒 绝 为 所 有 其 他 客户 提供 服务 。 这 就 是 
所 谓 的 拒绝 服务 〈denial of service) 型 攻击 。 它 就 是 针对 服务 器 做 些 动作 ， 导 致 服务 器 不 再 能 
为 其 他 合法 客户 提供 服务 。 可 能 的 解决 办 法 包括 : (a) 使 用 非 阻 塞 式 HO 〈 第 16 章 ); (b) 让 每 
个 客户 由 单独 的 控制 线程 提供 服务 〈 例 如 创建 一 个 子 进程 或 一 个 线程 来 服务 每 个 客户 );(〈c) 对 
IO 操作 设置 一 个 超时 〈14.2 节 )。 


c ———— e E ANT 


pselect 图 数 是 由 POSIX 发 明 的 ， 如 今 有 许多 Unix 变 种 支持 它 。 


#include «sys/select.h» 
#include <signal.h> 
finclude <time.h> 


int pselect (int maxfdpl, fd set *readset, td set *writeset, fd set *exceptset, 
const struct timespec */imeout, const sigset t *sigmask); 


返回 : 老 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 为 0， 若 出 错 则 为 -1 





D 新 作者 从 6.7 节 开始 关于 回 射 服务 的 讨论 实际 上 已 经 放弃 第 2 版 面向 文本 行 的 一 贯 做 法 ， 这 是 符合 RFC 862 的 。 尽 


管 程序 是 正确 的 ， 然 而 在 解释 程序 时 他 们 有 时 候 却 往往 直接 照抄 Stevens 先 生 的 说 法 。 以 上 这 段 文字 就 是 直接 照 
抄 的 ， 只 是 在 第 一 次 出 现 reag 一 词 的 地 方 ， 把 Stevens 先 生 使 用 的 readline 改 成 了 read。 第 2 版 中 对 应 的 本 服务 
器 程序 是 面向 文本 行 的 , 调用 的 是 readline 而 不 是 read， 上 - 段 文字 中 出 现 的 第 二 个 read 指 的 是 readline 内 部 
的 read 调 用 (readline 总 是 要 读 到 换行 符 或 EOF 才 返回 )。 对 于 不 再 面向 文本 行 的 回 射 服务 来 说 ，Stevens 先 生 
讲述 的 由 于 等 待 读 入 换行 符 或 EOF 而 引起 的 拒绝 服务 攻击 已 不 复 存在 。 接 下 去 的 文字 仍然 需要 按照 第 2 版 中 对 应 
的 服务 器 程序 来 理解 。 一 一 译 者 注 
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pselect 相 对 于 通常 的 select 有 两 个 变化 。 
(1) pselect 使 用 timespec 结 构 , 而 不 使 用 timeval 结 构 。timespec 结 构 是 POSIX 的 又 一 个 
发 明 。 


struct timespec { 
time t tv sec; /* seconds */ 
long tv nsec; /* nanoseconds */ 
um 
这 两 个 结构 的 区 别 在 于 第 二 个 成 员 ， 新 结构 的 该 成 员 tv_nsec 指 定 纳 秒 数 ， 而 旧 结 构 的 该 成 员 
tv_usec 指 定 微 秒 数 。 
(2) pselect 函 数 增加 了 第 六 个 参数 ， 一 个 指向 信和 号 掩 码 的 指针 。 该 参数 允许 程序 先 禁止 递 
交 某 些 信 号 ， 再 测试 由 这 些 当前 被 禁止 信号 的 信号 处 理 函 数 设 置 的 全 局 变量 ， 然 后 调用 
pselect， 告 诉 它 重 新 设置 信号 掩 码 。 
关于 第 二 点 ， 考 虑 下 面 的 例子 (在 APUE 第 308 一 309 页 讨论 )。 这 个 程序 的 sSTIGINT 信 和 号 处 理 
函数 仅仅 设置 全 局 变量 intr_flag 并 返回 。 如 果 我 们 的 进程 阻塞 于 select 调 用 ， 那 么 从 信号 处 
理 函 数 的 返回 将 导致 select 返 回 EINTR 错 误 。 然 而 调用 select 时 ， 代 码 看 起 来 大 体 如 下 : 


if (intr_flag) 


handle intr(); /* handle the signal */ 
if ( (nready = select( ... )) < 0) ( 
if (errno == EINTR) { 


if (intr flag) 
handle intr(); 


jv 
问题 是 ， 在 测试 intr_flag 和 调用 select 之 间 如 果 有 信号 发 生 ， 那 么 若 select 永 远 阻塞 ， 

该 信号 将 丢失。 有 了 pselect 后 ， 我 们 可 以 按 以 下 方式 可 靠 地 编写 这 个 例子 的 代码 : 
sigset t  newmask, oldmask, zeromask; 


sigemptyset (&zeromask) ; 
sigemptyset (&newmask) ; 
sigaddset (&newmask, SIGINT); 


sigprocmask(SIG BLOCK, &newmask, &oldmask); /* block SIGINT */ 
if (intr. flag) 

handle intr(); /* handle the signal */ 
if ( (nready - pselect( ... , &zeromask)) « 0) ( 


if (errno -- EINTR) ( 
if (intr flag) 
handle intr(); 
) 
$ 
在 测试 intr_flag 变 量 之 前 ， 我 们 阻塞 sSIGINT。 当 pselect 被 调用 时 ， 它 先 以 空 集 ( 即 
zeromask) 替代 进程 的 信号 掩 码 ， 再 检查 描述 符 ， 并 可 能 进入 睡眠 。 然 而 当 pselect 函 数 返 回 
时 ， 进 程 的 信号 掩 码 又 被 重 置 为 调用 pselect 之 前 的 值 ( 即 sIGINT 被 阻塞 )。 
我 们 将 在 20.5 节 对 pselect 作 更 多 的 讨论 ， 并 给 出 一 个 它 的 例子 。 其 中 图 20-7 使 用 了 
pselect， 图 20-8 给 出 pselect 的 一 个 简单 但 不 太 正 确 的 实现 。 
这 两 个 select 吕 数 还 有 另外 一 个 小 区 别 。timeval 结 构 的 第 一 个 成 员 是 有 符号 的 长 整数 ， 


而 timespec 结 构 的 第 一 个 成 员 是 time_t。 前 者 的 有 符号 长 整数 本 也 应 该 是 time_t， 不 过 并 没 
有 做 这 样 的 追溯 性 修改 ， 以 防 破坏 已 有 代码 。 而 全 新 的 pselect 函 教 可 以 做 这 样 的 修改 。 
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«—————— ——ÀMÓ— A (€ €Ó€——— À———————— 


pol1 函 数 起 源 于 SVR3， 最 初 局 限于 流 设 备 〈 第 31 章 )。SVR4 取 消 了 这 种 限制 ， 允 许 pol1 
工作 在 任何 描述 符 上 。pol1 提 供 的 功能 与 select 类 似 ， 不 过 在 处 理 流 设备 时 ， 它 能 够 提供 额外 
的 信息 。 


#include <poll.h> 





int poll(struct pollfd *fdarray, unsigned long nfds, int timeout); 





返回 ， 车 有 就 绪 描 述 符 则 为 其 数目 ， 若 超时 则 为 0， 若 出 错 则 为 -1 


第 一 个 参数 是 指向 一 个 结构 数组 第 一 个 元 素 的 指针 。 每 个 数组 元 素 都 是 一 个 pol1fd 结 构 ， 
用 于 指定 测试 某 个 给 定 描述 符 fa 的 条 件 。 


struct pollfd ( 


int fd; /* descriptor to check */ 
short events; /* events of interest on fd */ 
short revents; /* events that occurred on fd */ 


}; 
要 测试 的 条 件 由 events 成 员 指定 ， 函 数 在 相应 的 revents 成 员 中 返回 该 描述 符 的 状态 。 
〈 每 个 描述 符 都 有 两 个 变量 ， 一 个 为 调用 值 ， 另 一 个 为 返回 结果 ， 从 而 避免 使 用 值 - 结 果 参 数 。 
回想 select 函 数 的 中 间 三 个 参数 都 是 值 -结果 参数 。) 这 两 个 成 员 中 的 每 一 个 都 由 指定 某 个 特定 
条 件 的 一 位 或 多 位 构成 。 图 6-23 列 出 了 用 于 指定 events 标 志 以 及 测试 revents 标 志 的 一 些 常 值 。 
普通 或 优先 级 带 数 据 可 读 
普通 数据 可 读 
优先 级 带 数 据 可 读 
高 优先 级 数据 可 读 
普通 数据 可 写 
普通 数据 可 写 
优先 级 带 数 据 可 写 


发 生 挂 起 
描述 符 不 是 一 个 打开 的 文件 
图 6-23 poll 函数 的 输入 events 和 和 返回 revents 








我 们 将 该 图 分 为 三 个 部 分 : 第 一 部 分 是 处 理 输入 的 四 个 常 值 ， 第 二 部 分 是 处 理 输出 的 三 个 
常 值 ， 第 三 部 分 是 处 理 错误 的 三 个 常 值 。 其 中 第 三 部 分 的 三 个 常 值 不 能 在 events 中 设置 ， 但 是 
当 相 应 条 件 存在 时 就 在 revents 中 返回 。 

pol1 识 别 三 类 数据 : 普通 (normal)、 优 先 级 带 〈priority band) 和 高 优先 级 Chigh priority). 
这 些 术 语 均 出 自 基 于 流 的 实现 《图 31-5 )。 


POLLIN 可 被 定义 为 POLLRDNORM 和 POLLRDBRAND 的 远 辑 或 。 POLLIN 自 SVR3 实 现 就 存在 ， 
早 于 SVR4 中 的 优先 级 带 ， 为 了 向 后 兼容 ， 该 常 值 继续 保留 。 类 似 地 ，POLLOUT 等 同 于 
POLLWRNORM， 前 者 早 于 后 者 。 
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就 TCP 和 UDP 套 接 字 而 言 ,以 下 条 件 引 起 pol11 返 回 特定 的 revent。 不 幸 的 是 , POSIX 在 其 pol1 
的 定义 中 留 了 许多 空洞 (也 就 是 说 有 多 种 方法 可 返回 相同 的 条 件 )。 

e 所 有 正规 TCP 数 据 和 所 有 UDP 数据 都 被 认为 是 普通 数据 。 

e TCP 的 带 外 数据 〈 第 24 章 ) 被 认为 是 优先 级 带 数 据 。 

e 当 TCP 连 接 的 读 半 部 关闭 时 〈 壁 如 收 到 了 一 个 来 自 对 端的 FIN)， 也 被 认为 是 普通 数据 ， 
随后 的 读 操作 将 返回 0。 

e TCP 连 接 存 在 错误 既 可 认为 是 普通 数据 ， 也 可 认为 是 错误 (POLLERR)。 无 论 哪 种 情况 ， 
随后 的 读 操作 将 返回 -1， 并 把 errno 设 置 成 合适 的 值 。 这 可 用 于 处 理 诸如 接收 到 RST 或 
发 生 超时 等 条 件 。 

e 在 监听 套 接 字 上 有 新 的 连接 可 用 既 可 认为 是 普通 数据 ， 也 可 认为 是 优先 级 数据 。 大 多 数 
实现 视 之 为 普通 数据 。 

e 非 阻塞 式 connect 的 完成 被 认为 是 使 相应 套 接 字 可 写 。 

结构 数组 中 元 素 的 个 数 是 由 nfds 参 数 指定 。 


历史 上 这 个 参数 曾 被 定义 为 无 符号 长 整数 (unsigned long) ， 似 乎 过 分 大 了 。 定 义 为 
无 符号 整数 (unsigned int) 可 能 就 足够 了 。Unix 98 为 该 参数 定义 了 名 为 nfds_t 的 新 的 数 
据 类 型 。 


timeout 参 数 指定 poll1 函 数 返回 前 等 待 多 长 时 间 . 它 是 一 个 指定 应 等 待 毫 秒 数 的 正 值 ,图 6-24 
给 出 了 它 的 可 能 取 值 。 


立即 返回 ， 不 阻塞 进程 
等 待 指定 数目 的 毫秒 数 


图 6-24 poll 的 timeout 参 数值 





INFTIM 常 值 被 定义 为 一 个 负 值 。 如 果 系 统 不 能 提供 毫秒 级 精度 的 定时 器 ， 该 值 就 向 上 舍 入 
到 最 接近 的 支持 值 。 


POSIX 规 范 要 求 在 头 文件 <poll1 .h> 中 定义 INFTIM， 不 过 许多 系统 仍然 把 它 定 义 在 头 文 
ft«sys/stropts.h» P. 
正如 select， 给 pol1 指 定 的 任何 超时 值 都 受 限 于 实际 系统 实现 的 时 钟 分 辨 率 (通常 是 10 


ms). 


当 发 生 错误 时 ，pol1 函 数 的 返回 值 为 -1， 若 定时 器 到 时 之 前 没有 任何 描述 符 就 绪 ， 则 返回 
0， 否 则 返回 就 绪 描述 符 的 个 数 ， 即 revents 成 员 值 非 0 的 描述 符 个 数 。 

如 果 我 们 不 再 关心 某 个 特定 描述 符 , 那么 可 以 把 与 它 对 应 的 pol1fa 结 构 的 fdq 成 员 设置 成 一 

个 负 值 。po11 函 数 将 忽略 这 样 的 pol11fa 结 构 的 events 成 员 , 返回 时 将 它 的 revents 成 员 的 值 置 

为 0。 

回顾 6.3 节 结尾 处 我 们 就 FPD_sETSIZE 以 及 就 每 个 描述 符 集 中 最 大 描述 符 数目 相 比 每 个 进程 
中 最 大 描述 符 数目 展开 的 讨论 。 有 了 pol1 就 不 再 有 那样 的 问题 了 ， 因 为 分 配 一 个 pollfa 结 构 的 
数组 并 把 该 数组 中 元 素 的 数目 通知 内 核 成 了 调用 者 的 责任 。 内 核 不 再 需要 知道 类 似 fa_set 的 固 
定 大 小 的 数据 类 型 。 
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第 6 章 VO 复 用 : select f» poll 函数 


POSIX 规 范 对 select 和 pol1 都 有 需要 。 然 而 从 当今 的 可 移植 性 角度 考虑 ， 支 持 select 


的 系统 比 支持 pol1 的 系统 要 多 。 另 外 POSIX 还 定义 了 pselect， 它 是 能 够 处 理 信号 阻塞 并 提 
供 了 更 高 时 间 分 状 率 的 select 的 增强 版 本 。POSIX 没 有 为 pol11 定 义 类 似 的 东西 。 


mr ev Lara 





我 们 现在 用 pol1 替 代 select 重 写 6.8 节 的 TCP 回 射 服务 器 程序 。 在 使 用 select 早 先 那个 版 
本 中 ， 我 们 必须 分 配 一 个 client 数 组 以 及 一 个 名 为 rset 的 描述 符 集 (图 6-15)。 改 用 pol1l 后 ， 
我 们 只 需 分 配 一 个 pollfa 结 构 的 数组 来 维护 客户 信息 ， 而 不 必 分 配 另 外 一 个 数组 。 我 们 以 与 图 
6-15 中 处 理 client 数 组 相同 的 方法 处 理 该 数组 的 fa 成 员 : 值 -1 表示 所 在 项 未 用 ， 否 则 即 为 描述 
符 值 。 回 顾 前 一 节 ， 我 们 知道 传递 给 pol11 的 poellfa 结 构 数组 中 的 任何 fd 成 员 为 负 值 的 项 都 被 











pol1 忽 略 。 
图 6-25 给 出 了 我 们 的 服务 器 程序 的 前 半 部 分 。 
tcpcliserv/tepservpoll01.c 
1 #include "unp.h" 
2 include «limits.h» /* for OPEN MAX */ 
3 in 
4 main(int argc, char **argv) 
Sot 
6 int i, maxi, listenfd, connfd, sockfd; 
7 int nready; 
8 ssize t n; 
9 char buf[MAXLINE); 
10 socklen t clilen; 
11 struct pollfd client[OPEN MAX]; 
12 struct sockaddr in cliaddr, servaddr; 
13 listenfd = Socket (AF_INET, SOCK_STREAM, 0); 
14 bzero(&servaddr, sizeof (servaddr) ); 
£5 servaddr.sin_family = AF_INET; 
16 Servaddr.sin addr.s addr = htonl(INADDR ANY); 
17 servaddr.sin port - htons(SERV PORT); 
18 Bind(listenfd, (SA *) &servaddr, sizeof(servaddr)); 
19 Listen(listenfd, LISTENQ); 
20 client[0].fd = listenfd; 
21 clientí(0].events = POLLRDNORM; 
22 for (i = 1; i < OPEN_MAX; i++) 
23 client[i].fd = -1; /* -1 indicates available entry */ 
24 maxi - 0; /* max index into client[] array */ 
一 -一 一 一 一 icpcliserwtcpsemPpoll01.c 
图 6-25 ”使 用 pol1 函 数 的 TCP 服 务 器 程序 的 前 半 部 分 “ 
分 配 pollfd 结 构 数 组 


11 我 们 声明 在 pol1fa 结 构 数 组 中 存在 OPEN_MAX 个 元 素 。 确定 一 个 进程 任何 时 刻 能 够 打开 
的 最 大 描述 符 数目 并 不 容易 ， 我 们 将 在 图 13-4 中 再 次 遇 到 这 个 问题 。 方 法 之 一 是 以 参 
数 _sc_OPEN_MAX 调 用 POSIX 的 sysconf 函 数 (如 APUE 第 42 一 44 页 2 所 述 )， 然 后 动态 分 


O 此 处 为 APUE 第 1 版 英文 原版 书页 码 ， 第 2 版 英文 原版 书 为 第 41 页 ， 第 2 版 中 文 版 为 第 32 一 33 页 。 一 一 编者 注 
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配 一 个 合适 大 小 的 数组 。 然 而 sysconf 的 可 能 返回 之 一 是 “indeterminate”( 不 确定 )， 
意味 着 我 们 仍然 不 得 不 猜测 一 个 值 。 这 里 我 们 就 用 POSIX 的 oPEN_MAX 常 值 。 

初始 化 

20-24 ”我 们 把 client 数 组 的 第 一 项 用 于 监听 套 接 字 ， 并 把 其 余 各 项 的 描述 符 成 员 置 为 -1。 我 
们 还 给 第 一 项 设置 POLLRDNORM 事 件 , 这 样 当 有 新 的 连接 准备 好 被 接受 时 pol1 将 通知 我 
们 。maxi 变 量 含有 client 数 组 当前 正在 使 用 的 最 大 下 标 值 。 


main 函 数 的 后 半 部 分 示 于 图 6-26 中 。 
-so tcpcliserv/tcpservpoll01.c 

25 for (37) { 

26 nready = Poll(client, maxi + 1, INFTIM); 

27 if (client[0].revents & POLLRDNORM) { /* new client connection */ 

28 clilen = sizeof(cliaddr) ; 

29 connfd = Accept (listenfd, (SA *) &cliaddr, &clilen); 

30 for (i = 1; i « OPEN MAX; i++) 

31 : if (client[i].fd < 0) ( 

32 client[il.fd = connfd; /* save descriptor */ 

34 break; 

34 ) 

35 if (i == OPEN MAX) 

36 err quit("too many clients"); 

37 client[il.events - POLLRDNORM; 

38 if (i » maxi) 

39 maxi - i; /* max index in client[] array */ 

40 if (--nready <= 0) 

41 continue; /* no more readable descriptors */ 

42 } 

43 for (i = 1; i <= maxi; i++) { /* check all clients for data */ 

44 if ( (sockfd = client[i].fd) « 0) 

45 continue; 

46 if (client[i].revents & (POLLRDNORM | POLLERR)) { 

47 if ( (n = read(sockfd, buf, MAXLINE)) < 0) { 

48 if (errno -- ECONNRESET) ( 

49 /*connection reset by client */ 

50 Close (sockfd); 

51 client[i].fd = -1; 

52 ) else 

53 err, sys("read error"); 

54 ) else if (n == 0) ( 

55 /*connection closed by client */ 

56 Close(sockfd); 

57 client[i].fd = -1; 

58 ) else 

59 Writen(sockfd, buf, n); 

60 if (--nready «- 0) 

61 break; /* no more readable descriptors */ 

62 ) 

63 ) 

64 } 

65 } 





tepcliserv/tcpservpoll01.c 
图 6-26 ”使 用 pol1 的 TCP 服 务 器 程序 的 后 半 部 分 
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调用 poll1， 检 查 新 的 连接 

26~42 ”我 们 调用 pol1 以 等 待 新 的 连接 或 者 现 有 连接 上 有 数据 可 读 。 当 一 个 新 的 连接 被 接受 后 ， 
我 们 在 client 数 组 中 查找 第 一 个 描述 符 成 员 为 负 的 可 用 项 。 注意 , 我 们 从 下 标 1 开 始 搜 
索 ， 因 为 client [0] 固定 用 于 监听 套 接 字 。 找 到 一 个 可 用 项 之 后 ， 我 们 把 新 连接 的 描 
述 符 保存 到 其 中 ， 并 设置 PoLLRDNORM 事 件 。 

检查 某 个 现 有 连接 上 的 数据 

43-63 ”我 们 检查 的 两 个 返回 事件 是 POLLRDNORM 和 POLLERR。 其 中 我 们 并 没有 在 event 成 员 中 
设置 第 二 个 事件 ， 因 为 它 在 条 件 成 立时 总 是 返回 。 我们 检查 POLLERR 的 原因 在 于 : 有 
些 实现 在 一 个 连接 上 接收 到 RST 时 返回 的 是 POLLERR 事 件 ， 而 其 他 实现 返回 的 只 是 
POLLRDNORM 事 件 。 不 论 哪 种 情形 ,我 们 都 调用 reaa， 当 有 错误 发 生 时 ，read 将 返回 这 
个 错误 。 当 一 个 现 有 连接 由 它 的 客户 终止 时 ， 我 们 就 把 它 的 fd 成 员 置 为 -1。 
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Unix 提 供 了 五 种 不 同 的 MO 模型 : 

。 阻 塞 式 IO 模型 ; 

e 非 阻 塞 式 IO 模型 ; 

e IO 复 用 模型 ; 

e 信号 驱动 式 IO 模 型 ; 

e 异步 IO 模型 。 

默认 为 阻塞 式 UVO 模 型 ， 它 也 是 最 常用 的 IO 模型 。 在 以 后 章节 中 ， 我 们 将 讨论 非 阻 塞 式 IO 
模型 和 信和 号 驱动 式 IO 模 型 ， 而 本 章 讨论 的 是 IO 复 用 模型 。 真 正 的 异步 JO 模 型 是 由 POSIX 规 范 
定义 的 ， 不 过 很 少 有 它 的 实现 存在 。 

IO 复 用 模型 最 常用 的 函数 是 select。 我 们 告知 该 函数 〈 就 读 、 写 和 异常 条 件 ) 所 关心 的 
描述 符 、 最 长 等 待 时 间 以 及 最 大 描述 符号 (加 1)。 大 多 数 select 调 用 指定 的 是 可 读 条 件 ， 而 对 
于 套 接 字 描 述 符 ， 唯 一 的 异常 条 件 是 带 外 数据 的 到 达 (第 24 章 )。 既 然 select 可 以 提供 函数 阻 
塞 时 长 的 一 个 限制 ， 我 们 将 在 图 14-3 中 使 用 该 特性 对 输入 操作 设置 一 个 时 间 限 制 。 

我 们 以 批量 方式 运行 用 select 编 写 的 回 射 客户 程序 ， 发 现 即使 已 经 遇 到 了 用 户 输入 的 结 
尾 ， 仍 可 能 有 数据 处 于 去 往 或 来 自 服务 器 的 管道 中 。 处 理 这 种 情形 要 求 使 用 shutdown 函 数 ， 这 
使 得 我 们 能 够 用 上 TCP 的 半 关 闭 特 性 。 

混合 使 用 stdio 缓 冲 机 制 (我 们 自己 的 readline 组 冲 机 制 也 不 例外 ) 和 select 的 危险 促成 我 
们 提供 针对 缓冲 区 而 不 是 文本 行 操作 的 回 射 客户 程序 和 服务 器 程序 的 正确 版 本 。 

POSIX 定 义 的 pselect 函 数 把 时 间 精 度 从 微 秒 级 增加 到 纳 秒 级 ， 并 采用 一 个 指向 信号 集 的 
指针 作为 它 的 一 个 新 参数 。 当 有 信号 需要 捕获 时 ， 该 参数 能 够 让 我 们 避免 竞 争 条 件 ， 我 们 将 在 
20.5 节 进一步 讨论 竞争 条 件 。 

出 自 System V 的 pol1 函 数 提 供 类 似 于 seliect 的 功能 ， 不 过 能 够 为 流 设备 提供 额外 信息 。 
POSIX 对 select 和 pol1 都 有 和 需要， 不 过 前 者 使 用 得 更 为 频繁 。 
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习题 


61 ”我们 说 过 一 个 描述 符 集 可 以 用 C 语 言 中 的 赋值 语句 赋 给 另 一 描述 符 集 。 如 果 描述 符 集 是 一 个 整 型 数 
组 , 那么 这 是 如 何 做 到 的 ?提示 : 研究 一 下 你 自己 的 系统 中 的 <sys/select .h> 或 <sys/types.h> 
头 文件 。) 

62 ”在 6.3 节 讨论 select 返 回 “ 可 写 ” 条 件 时 ， 为 什么 必须 限定 套 接 字 为 非 阻塞 才 可 以 说 一 次 写 操作 将 返 
回 一 个 正 值 ? 

6.3 ”如 果 在 图 6-9 的 第 19 行 上 的 if 关键 词 前 加 上 else 关 键 词 ， 将 会 发 生 什么 ? 

64 在 图 6-21 的 例子 中 加 上 一 段 代 码 ， 使 得 服务 器 能 够 使 用 内 核 当前 允许 的 最 多 描述 符 数 。 (提示 : 研究 
一 下 setrlimit 函 数 。) 

6.5 ”让 我 们 看 看 当 shut down 的 第 二 个 参数 为 SHUT_RD 时 将 发 生 什么 。 以 图 5-4 中 的 TCP 客 户 程 序 为 基础 并 
做 如 下 改动 : 把 端口 号 从 sERV_PORT 改 为 19， 也 就 是 chargen 服 务 器 〈 图 2-18) 所 监听 的 端口 ， 以 
调用 pause 取 代 调 用 str_cli。 指定 本 地 局 域 网 上 运行 chargen 服 务 器 的 某 个 主机 的 了 P 地 址 来 运行 这 
个 客户 程序 。 以 诸如 tcpdump (C.515) 这 类 工具 观察 分 组 ， 看 到 发 生 了 什么 ? 

6.6 ”为 什么 应 用 程序 会 以 参数 SHUT_RDWR 来 调用 shutdown， 而 不 是 仅仅 调用 close? 

67 图 6-22 中 当 客 户 发 送 一 个 RST 来 终止 连接 时 ， 将 会 发 生 什 么 ? 

68 重 写 图 6-25 中 的 代码 ， 调 用 sysconf 来 确定 描述 符 的 最 大 数目 ， 并 相应 地 分 配 cl ient 数 组 。 
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套 接 字 选 项 








7.1 概述 


有 很 多 方法 来 获取 和 设置 影响 套 接 字 的 选项 ， 

e getsockopt 和 setsockopt 函 数 ; 

e fcnt1 函 数 ; 

e ioct1 函 数 。 

本 章 从 介绍 getsockopt 和 setsockopt 函 数 开始 ， 接着 给 出 一 个 输出 所 有 选项 默认 值 的 例 
子 ， 然 后 详细 介绍 所 有 套 接 字 选 项 。 我 们 按 以 下 分 类 进行 详细 介绍 : 通用、IPv4、IPv6、TCP 
和 SCTP。 在 第 一 次 阅读 本 章 时 ， 这 些 细节 可 以 跳 过 ， 当 需要 时 再 回来 看 个 别 章节 。 个 别 选项 在 
后 续 章 节 中 还 有 更 为 详细 的 讨论 , 譬如 IPv4 和 IPv6 多 播 选 项 在 21.6 节 我 们 讲解 多 播 时 还 会 讨 
论 到 。 

我 们 还 介绍 fcnt1 函 数 , 因为 它 是 把 套 接 字 设 置 为 非 阻塞 式 JO 型 或 信号 驱动 式 JO 型 以 及 设 
置 套 接 字 属 主 的 POSIX 的 方法 。 我 们 把 ioct1 函 数 的 讨论 留 到 第 17 章 。 
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7.2 getsockopt 和 setsockopt 函数 


这 两 个 函数 仅 用 于 套 接 字 。 
#include «sys/socket.h» 


int getsockopt (int sockfd, int level, int optname, void *optval, socklen t *optlen) ; 


int setsockopt (int sockfd, int level, int optname, const void *optval, 


socklen_t optlen) ; 


均 返 回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 


其 中 sockfa 必 须 指向 一 个 打开 的 套 接 字 描 述 符 ，level (级 别 ) 指定 系统 中 解释 选项 的 代码 或 
为 通用 套 接 字 代码 ， 或 为 某 个 特定 于 协议 的 代码 〈 例 如 IPv4、IPv6、TCP 或 SCTP )。 

optyal 是 一 个 指向 某 个 变量 C*optval) 的 指针 ，setsockopt 从 *optval 中 取得 选项 待 设置 的 
新 值 , getsockopt 则 把 已 获取 的 选项 当前 值 存放 到 *optval 中 。 *optval 的 大 小 由 最 后 一 个 参数 指定 ， 
它 对 于 setsockopt 是 一 个 值 参 数 ， 对 于 getsockopt 是 一 个 值 - 结 果 参 数 。 

图 7-1 和 图 7-2 汇 总 了 可 由 get sockopt 获 取 或 由 setsockopt 设 置 的 选项 ,其 中 的 “ 数据 类 型 ” 
列 给 出 了 指针 optval 必 须 指向 的 每 个 选项 的 数据 类 型 。 我 们 用 后 跟 一 对 花 括 号 的 记 法 来 表示 一 个 
结构 ， 如 1inger{} 就 表示 struct linger. 

套 接 字 选 项 粗 分 为 两 大 基本 类 型 : 一 是 启用 或 禁止 某 个 特性 的 二 元 选项 〈 称 为 标志 选项 )， 
二 是 取得 并 返回 我 们 可 以 设置 或 检查 的 特定 值 的 选项 〈 称 为 值 选 项 )。 标 有 “标志 ”的 列 指出 一 
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TR TO X IONMENDLGC—— A 
EST] 
SO, DEBUG 
SO, DONTROUTE 
SO ERROR 获取 待 处 理 错误 并 清除 
SO KEEPALIVE 周期 性 测试 连接 是 否 仍 存活 
SO_LINGER 若 有 数据 待 发 送 则 延迟 关闭 linger() 
SO, OOBINLINE 让 接收 到 的 带 外 数据 继续 在 线 留存 int 
SO RCVBUF 接收 缓冲 区 大 小 int 
SO_SNDBUF 发 送 缓冲 区 大 小 int 
SO_RCVLOWAT 接收 缓冲 区 低 水 位 标记 i 
SO. SNDLOWAT 发 送 缓冲 区 低 水 位 标记 
SO RCVTIMEO 
SO, SNDTIMFO 
SO. REUSEADDR 允许 重用 本 地 地 址 
SO, REUSEPORT 允许 重用 本 地 端口 
SO_TYPE 取得 套 接 字 类 型 
路 由 套 接 字 取 得 所 发 送 数据 的 副本 
IPPROTO_IP IP_HDRINCL 随 数据 包含 的 IP 首 部 
IP. OPTIONS JP 首部 选项 
IP. RECVDSTADDR 返回 目的 下 地 址 
IP RECVIF 
IP TOS 
IP TTL 


IP MULTICAST IF in e 

IP MULTICAST TTI, u char 

IP MULTICAST LOOP E u_char 

IP ADD MEMBERSHIP : ip mreqí] 

IP DROP MEMBERSHIP F ip_mrea{} 

IP BLOCK SOURCE ip mreq source() 
IP UNBLOCK, SOURCE i ip mreg source() 
IP ADD SOURCE, MEMBERSHIP 1 ip mreq, source() 


IP DROP SOURCE MEMBERSHIP ip_mreq_source{} 
FPPROTO_IcNPVe [rompe FTR ”| * | * | 指定 待 传递 的 ICMPv6 消 息 类 型 “| — |icnp6-filtert) | 
IPPROTO IPVÉ IPV6 CHECKSUM 用 于 原始 套 接 字 的 校 验 和 字段 偏 移 int 
IPV6. DONTFRAG 丢弃 大 的 分 组 而 非 将 其 分 片 int 
IPV6 NEXTHOP 指定 下 一 跳 地 址 Sockaddr in6í] 
IPV6 PATHMTU 获取 当前 路 径 MTU ip6 mtuinfo() 
IPV6, RECVDSTOPTS 接收 目的 地 选项 int 
IPV6, RECVHOPLIMIT 接收 单 播 跳 限 int 
IPV6_RECVHOPOPTS 接收 步 跳 选项 int 
IPV6_RECVPATHMTU int 
IPV6_RECVPKTINFO int 
IPV6 RECVRTHDR int 
IPV6 RECVTCLASS X int 
IPV6 UNIÍCAST HOPS i int 
IPV6_USE_MIN_MTU int 
IPV6 V6ONLY int 
IPV6 XXX WREX) 
IPV6_MULTICAST_IF 
IPV6_MULTICAST_HOPS 
IPV6. MULTICAST LOOP 
IPV6, JOIN GROUP 
IPV6 LEAVE GROUP 
IPPROTO IPH MCAST, JOIN, GROUP group reqí() 
IPPROTO IPV6 MCAST. LEAVE, GROUP group source reqí) 
MCAST BLOCK, SOURCE group, source, regí) 
MCAST. UNBLOCK, SOURCE group source reqí) 
MCAST JOIN, SOURCE GROUP i group_source_req{} 
MCAST_LEAVE_SOURCE_GROUP group source, redí) 


图 7-1 BRS RAPE B AE HERE AMC A 
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[ level GARI) | opmame (选项 名 ) |9et [sec [ 说 "m | 标志 | — RR 
[PPROTO_TCP | TCP MAXSEG TCP 最 大 分 节 大 小 a 
fore [mene ds | s eee 
IPPROTO_SCTP | SCTP_ADAPTION_LAYER ERRAR sctp_setadapt ion{} 
SCTP_ASSOCINFO 检查 并 设置 关联 信息 
SCTP AUTOCLOSE 自动 关闭 操作 
SCTP. DEFAULT. SEND. PARAM 默认 发 送 参数 
SCTP_DISABLE_FRAGMENTS SCTP 分 片 
SCTP_EVENTS 感 兴趣 事件 的 通知 
SCTP_GET_PEER_ADDR_INFO 获取 对 端 地 址 状态 
SCTP. I. WANT. MAPPED, V4. ADDR iR AT Avait AE 
SCTP_INITMSG 默认 的 INIT 参 数 
SCTP_MAXBURST 最 大 锤 发 大 小 
SCTP. MAXSEG 最 大 分 片 大 小 
SCTP_NODELAY 禁止 Nagle 算 法 
SCTP_PEER_ADDR_PARAMS 对 端 地 址 参数 
SCTP PRIMARY ADDR 主 旭 的 地 址 
SCTP. RTOINFO RTO 信 息 
SCTP SFT PEER PRIMARY ADDR 对 端的 主 目的 地 址 
SCTP_STATUS 获取 关联 状态 
































sctp_assocparams{} 
int 



























sctp sndrcvinfo() 









int 


sctp event subscribe(]) 





sctp_paddrinfo{} 








int 





sctp_initmsg{} 








sctp_paddrparams { } 
sctp_setprim{} 
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sctp_rtoinfo{} 
sctp_setpeerprim{} 
sctp_status{} 








+ 


图 7-2 ”传输 层 的 套 接 字 选 项 汇总 


个 选项 是 否 为 标志 选项 。 当 给 这 些 标 志 选 项 调用 gecsockopt 函 数 时 , *optva! 是 一 个 整数 。*optval 
中 返回 的 值 为 0 表示 相应 选项 被 禁止 ， 不 为 0 表示 相应 选项 被 启用 。 类 似 地 ，setsockopt 函 数 需 
要 一 个 不 为 0 的 *optval 值 来 启用 选项 ， 一 个 为 0 的 *optval 值 来 禁止 选项 。 如 果 “ 标 志 ” 列 不 含有 
“。 ^y 那么 相应 选项 用 于 在 用 户 进程 与 系统 之 间 传 递 所 指定 数据 类 型 的 值 。 

本 章 后 续 各 节 将 给 出 影响 套 接 字 的 各 个 选项 的 额外 细节 。 


73 ”检查 选项 是 否 受 支持 并 获取 默认 值 2 


现在 我 们 写 一 个 程序 来 检查 图 7-1 和 图 7-2 中 定义 的 大 多 数 选项 是 否 得 到 支持 ， 若 是 则 输出 
它们 的 默认 值 。 图 7-3 给 出 了 我 们 这 个 程序 的 所 有 声明 。 
声 阴 可 能 值 的 union 
3-8 ”对 于 getsockopt 的 每 个 可 能 的 返回 值 ， 我 们 的 union 类 型 中 都 有 一 个 成 员 。 
定义 函数 原型 
9-12 我们 为 用 于 输出 给 定 套 接 字 选 项 的 值 的 4 个 函数 定义 了 原型 。 
定义 结构 并 初始 化 数组 
13-52 ”我 们 的 sock_opts 结 构 包 含 了 给 每 个 套 接 字 选 项 调用 getsockopt 并 输出 其 当前 值 所 
需要 的 所 有 信息 。 它 的 最 后 一 个 成 员 opt_val_str 是 指向 用 于 4 个 选项 值 输出 函数 中 的 
某 一 个 的 指针 。 我 们 分 配 并 初始 化 这 个 结构 的 一 个 数组 ， 它 的 每 个 元 素 代表 一 个 套 接 
并 非 所 有 实现 都 支持 所 有 的 套 接 字 选 项 。 确 定 某 个 给 定 选项 是 否 得 到 支持 的 方法 是 用 语 
句 #ifdef 或 #if defined， 如 图 中 SO_REUSEPORT 选 项 所 示 。 为 求 完整 的 话 ， 本 数组 中 每 个 
元 素 都 应 类 似 SO_REUSEPORT 所 示 编 写 ， 不 过 我 们 省 略 了 这 些 ， 因 为 一 大 堆 #ifdef 语 向 仅 仅 
加 长 了 代码 ， 对 于 我 们 的 讨论 没有 什么 用 处 。 
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ockopt/checkopts.c 

1 #include "unp.h" 

2 include «netinet/tcp.h» /* for TCP xxx defines */ 

3 union val ( 

4 int i, val; 

5 long l val; 

6 struct linger linger val; 

7 struct timeval timeval val; 

8 ) val; 

9 static char *sock str flag(union val *, int); 
10 static char *sock str int(union val *, int); 
11 static char *sock str linger(union val *, int); 
12 static char *sock str timeval(union val *, int); 
13 struct sock opts ( 
14 const char *opt str; 
15 int opt level; 
16 int opt name; 
17 char *(*opt val str)(union val *, int); 
18 ) sock opts[] = ( 
19 ( "SO BROADCAST", SOL SOCKET, SO BROADCAST, Sock str flag ), 
20 ( "SO DEBUG", SOL SOCKET, SO DEBUG, Sock str, flag }, 
21 ( "SO DONTROUTE", SOL SOCKET, SO DONTROUTE, Sock str flag ), 
22 ( "SO ERROR", SOL SOCKET, SO ERROR, sock str int }, 
23 ( "SO KEEPALIVE", SOL SOCKET, SO KEEPALIVE, sock str flag }, 
24 ( "SO LINGER", SOL SOCKET, SO, LINGER, Sock str linger ), 
25 ( "SO OOBINLINE", SOL SOCKET, SO OOBINLINE, sock str flag ), 
26 ( "SO RCVBUF", SOL SOCKET, SO RCVBUF, SOoCk str int }, 
27 ( "SO SNDBUF", SOL SOCKET, SO SNDBUF, sock str int ), 
28 ( "SO RCVLOWAT", SOL SOCKET, SO RCVLOWAT, Sock str int }, 
29 ( "SO, SNDLOWAT" , SOL. SOCKET, SO SNDLOWAT, sock str int }, 
30 ( "SO RCVTIMEO", SOL SOCKET, SO RCVTIMEO, SOCk str timeval }, 
31 ( "SO SNDTIMEO", SOL SOCKET, SO SNDTIMEO, Sock str timeval }, 
32 ( "SO REUSEADDR", SOL SOCKET, SO, REUSEADDR, sock str flag ), 
33 #ifdef SO REUSEPORT 
34 ( "SO REUSEPORT", SOL SOCKET, SO REUSEPORT, Sock str flag ), 
35 #else 
36 ( "SO REUSEPORT", 0, 0, NULL }, 
37 #endif 
38 ( "SO TYPE", SOL SOCKET, SO TYPE, Sock str int ), 
39 ( "SO USELOOPBACK", SOL SOCKET, SO, USELOOPBACK, Sock str flag }, 
40 ( "IP TOS", IPPROTO IP, IP TOS, SOCk str int }, 
41 ( "IP TILS; IPPROTO IP, IP TTL, Sock str int ), 
42 ( "IPV6 DONTFRAG", IPPROTO_IPV6, IPV6_DONTFRAG, Sock str flag }, 
43 { "IPV6, UNICAST HOPS",  IPPROTO IPV6,IPV6 UNICAST HOPS,sock str int ), 
44 ( “IPV6_V6ONLY", IPPROTO_IPV6, IPV6_V6ONLY, sock_str_flag }, 
45 ( "TCP MAXSEG", IPPROTO TCP, TCP MAXSEG, Sock str int ), 
46 ( "TCP. NODELAY*, IPPROTO TCP, TCP NODELAY, Sock str flag ), 
47 { "SCTP. AUTOCLOSE" , IPPROTO SCTP,SCTP AUTOCLOSE, sock str int }, 
48 { "SCTP MAXBURST", IPPROTO_SCTP, SCTP_MAXBURST, sock_str_int }, 
49 { "SCTP MAXSEG", IPPROTO SCTP,SCTP MAXSEG, SOCk str int }, 
50 ( "SCTP NODELAY", IPPROTO SCTP,SCTP NODELAY, sock str flag ), 
51 ( NULL, 0, 0, NULL ) 
52 }; 

ockopt/checkopts.c 





图 7-3” 套 接 字 选项 检查 程序 的 声明 
图 7-4 给 出 了 我 们 的 main 函 数 。 
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- sockopt/checkopts.c 

53 int 

54 main(int argc, char **argv) 

55 { 

56 int fd; 

57 socklen_t len; 

58 struct sock_opts*ptr; 

59 for (ptr = sock_opts; ptr->opt_str != NULL; ptr++) { 

60 printf("$s: ", ptr-»opt str); 

61 if (ptr-»opt, val str == NULL) 

62 printf (" (undefined) An"); 

63 else { 

64 switch(ptr->opt_level) { 

65 ` case SOL_SOCKET: 

66 case IPPROTO_IP: 

67 case IPPROTO TCP: 

68 fd = Socket(AF INET, SOCK STREAM, 0); 

69 break; 

70 #ifdef IPV6 

71 case IPPROTO IPV6: 

72 fd = Socket(AF INET6, SOCK_STREAM, 0); 

73 break; 

74 #endif 

75 #ifdef  IPPROTO SCTP 

76 case IPPROTO SCTP: 

77 fd - Socket(AF INET, SOCK SEQPACKET, IPPROTO SCTP); 

78 break; 

79 #endif 

80 default: 

81 err quit("Can't create fd for level $dWMn", ptr-»opt, level); 

82 } 

83 len = sizeof(val); 

B4 if (getsockopt(fd, ptr-»opt level, ptr-»opt name, 

85 &val, &len) == -1) ( 

86 err ret("getsockopt error"); 

87 ) else ( 

88 printf("default = $s*n", (*ptr-»opt val str)(&val, len)); 

89 H 

90 close(fd); 

91 ) 

92 } 

93 exit(0); 

94 ) 
M sockopt/checkopts.c 

图 7-4 检查 所 有 套 接 字 选 项 的 main 函 数 

遍历 所 有 选项 


59-63 “我们 遍历 sock_cpts[] 数 组 中 的 所 有 元 素 。 如 果 某 个 元 素 的 opt_val_stzr 指 针 为 空 ， 
那么 该 实现 没有 定义 相应 的 选项 (我 们 的 例子 中 so_REUSEPORT 选 项 有 可 能 就 是 这 样 )。 

创建 套 接 字 

63-82 ”我 们 创建 一 个 用 于 测试 选项 的 套 接 字 。 测试 套 接 字 层 、TCP 层 和 IPv4 层 套 接 字 选项 所 用 
的 是 一 个 IPv4 的 TCP 套 接 字 ， 测 试 IPv6 层 套 接 字 选项 所 用 的 是 一 个 IPv6 的 TCP 套 接 字 ， 
测试 SCTP 层 套 接 字 选项 所 用 的 是 一 个 IPv4 的 SCTP 套 接 字 。 
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调用 getsockopt 
83-87 ”我 们 调用 getsockopt， 不 过 在 返回 错误 时 并 不 终止 。 许 多 实现 会 定义 一 些 尚 未 提供 支 
持 的 套 接 字 选项 的 名 字 。 这 些 不 受 支 持 的 选项 应 该 引发 一 个 ENOPROTOOPT 错 误 。 
输出 选项 的 默认 值 
88-89 ”如 果 getsockopt 返 回 成 功 ， 那 么 我 们 调用 相应 的 选项 值 输出 函数 将 选项 值 转换 为 一 个 
字符 串 并 输出 。 
在 图 7-3 中 我 们 给 出 了 4 个 函数 原型 ， 每 个 类 型 的 选项 值 一 个 。 图 7-5 给 出 了 这 4 个 函数 中 的 
一 个 即 sock_str_flag， 它 输出 标志 类 型 选项 的 值 。 其 他 3 个 函数 与 之 类 似 。 








ockopt/checkopts.c 
95 static charstrres(128]; 
96 static char* 
97 sock str flag(union val *ptr, int len) 
98 ( 
99 if (len !- sizeof(int)) 
100 snprintf(strres, sizeof(strres), "size (#d) not sizeof(int)", len); 
101 else 
102 snprintf(strres, sizeof(strres), 
103 "ts", (ptr->i_val == 0) ? "off" ; "on"); 
104 return(strres) ; 
105 } 


M sockoprcheckoptsc 
图 7-5 sock_str_flagHM: 将 标志 选项 转换 为 字符 串 


99-104 ”回顾 getsockopt 的 最 后 一 个 参数 ， 它 是 值 -结果 参数 。 我 们 所 做 的 第 - -项 检查 就 是 
getsockopt 返 回 值 的 大 小 是 否 为 期 望 的 大 小 。 本 函数 返回 的 字符 串 或 为 off, 或 为 on， 
取决 于 标志 选项 的 值 是 0 还 是 非 0。 
在 安装 了 KAME SCTP 补 丁 的 FreeBSD 4.8 上 运行 该 程序 得 到 如 下 输出 : 


freebsd % checkopte 

SO_BROADCAST: default = off 
SO_DEBUG: default = off 
SO_DONTROUTE: default = off 
SO_ERROR: default = 0 

SO KEEPALIVE: default = off 
SO_LINGER: default = 1 onoff = 0, l_linger = 0 
SO OOBINLINE: default - off 

SO RCVBUF: default - 57344 

SO SNDBUF: default - 32768 

SO RCVLOWAT: default 1l 

SO SNDLOWAT: default 2048 

SO RCVTIMEO: defauit 0 sec, 0 usec 
SO. SNDTIMEO: default 0 sec, 0 usec 
SO REUSEADDR: default - off 

SO REUSEPORT: default = off 

SO TYPE: default - 1 

SO USELOOPBACK: default - off 

IP TOS: default - 0 

IP TTL: default - 64 

IPV6 DONTFRAG: default = off 

IPV6, UNICAST HOPS: default = -1 

IPV6 V6ONLY: default = off 
TCP_MAXSEG: default = 512 
TCP.NODELAY: default = off 


"n ww a 
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SCTP AUTOCLOSE: default = 0 
SCTP MAXBURST: default - 4 
SCTP MAXSEG: default - 1408 
SCTP NODELAY: defauit - off 


SO_TYPE 选 项 的 返回 值 1 对 应 于 该 实现 的 SOCK_STREAM。 
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7.4” 套 接 字 状 态 


对 于 某 些 套 接 字 选 项 ， 针 对 套 接 字 的 状态 ， 什 么 时 候 设 置 或 获取 选项 有 时 序 上 的 考虑 。 我 
们 对 受 影 响 的 选项 论 及 这 一 点 。 

F 面 的 套 接 字 选 项 是 由 TCP 已 连接 套 接 字 从 监听 套 接 字 继 承 来 的 CTCPv258462—463 90: 
SO_DEBUG 、 SO_DONTROUTE 、 SO KEEPALIVE. SO_LINGER 、 SO OOBINLINE. SO_RCVBUF 、 
SO_RCVLOWAT、SO_SNDBUF、SO_SNDLOWAT、TCP_MAXSEG 和 TCP_NODELAY。 这 对 TCP 是 很 重要 
的 ， 因 为 accept 一 直 要 到 TCP 层 完成 三 路 握手 后 才 会 给 服务 器 返回 已 连接 套 接 字 。 如 果 想 在 三 
路 握手 完成 时 确保 这 些 套 接 字 选项 中 的 某 一 个 是 给 已 连接 套 接 字 设置 的 ， 那 么 我 们 必须 先 给 监 
听 套 接 字 设 置 该 选项 。 


SEITE se aie < ES LT RUAN Go TOSI TERESI Te A ye 


我 们 从 通用 套 接 字 选 项 开始 讨论 。 这 些 选项 是 协议 无 关 的 (也 就 是 说 ， 它 们 由 内 核 中 的 协 
议 无 关 代码 处 理 ,而 不 是 由 诸如 IPv4 之 类 特殊 的 协议 模块 处 理 ), 不 过 其 中 有 些 选项 只 能 应 用 到 
某 些 特定 类 型 的 套 接 字 中 。 举 例 来 说 ， 尽 管 我 们 称 so_BROADCAST 套 接 字 选 项 是 “通用 ”的 , 它 
却 只 能 应 用 于 数据 报 套 接 字 。 


7.5.1 So BROADCAST 套 接 字 选项 


本 选项 开启 或 禁止 进程 发 送 广 播 消 息 的 能 力 。 只 有 数据 报 套 接 字 支 持 广 播 ， 并 且 还 必须 是 
在 支持 广播 消息 的 网 络 上 例如 以 太 网 、 令 牌 环 网 等 )。 我 们 不 可 能 在 点 对 点 链 路 上 进行 广播 ， 
也 不 可 能 在 基于 连接 的 传输 协议 (例如 TCP 和 SCTP) 之 上 进行 广播 。 我们 将 在 第 20 章 中 更 为 详 
细 地 讨论 广播 。 

由 于 应 用 进程 在 发 送 广 播 数据 报 之 前 必须 设置 本 套 接 字 选项 ， 因 此 它 能 够 有 效 地 防止 一 个 
进程 在 其 应 用 程序 根本 没有 设计 成 可 广播 时 就 发 送 广 播 数 据 报 。 举 例 来 说 ， 一 个 UDP 应 用 程序 
可 能 以 命令 行 参数 的 形式 取得 目的 IP 地 址 ， 不 过 它 并 不 期 望 用 户 键入 一 个 广播 地 址 。 处 理 方法 
并 非 让 应 用 进程 来 确定 一 个 给 定 地 址 是 否 为 广播 地 址 ， 而 是 在 内 核 中 进行 测试 ， 如果 该 目的 地 
址 是 一 个 广播 地 址 且 本 套 接 字 选 项 没有 设置 ， 那 么 返回 FaccEs 错 误 〈TCPv2 第 233 页 )。 


7.5.2 So DEBUG 套 接 字 选项 


本 选项 仅 由 TCP 支 持 。 当 给 一 个 TCP 套 接 字 开启 本 选项 时 ,内 核 将 为 TCP 在 该 套 接 字 发 送 和 
接收 的 所 有 分 组 保留 详细 跟踪 信息 。 这 些 信息 保存 在 内 核 的 某 个 环形 缓冲 区 中 ， 并 可 使 用 trpt 
程序 进行 检查 。TCPv2 第 916 一 920 页 提供 了 更 为 详细 的 信息 和 使 用 了 本 选项 的 一 个 例子 。 


7.5.8 SO DONTROUTE 套 接 字 选项 
本 选项 规定 外 出 的 分 组 将 绕 过 底层 协议 的 正常 路 由 机 制 。 举 例 来 说 ， 在 IPv4 情 况 下 外 出 分 
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组 将 被 定向 到 适当 的 本 地 接口 ， 也 就 是 由 其 目的 地 址 的 网 络 和 子 网 部 分 确定 的 本 地 接口 。 如 果 
这 样 的 本 地 接口 无 法 由 目的 地 址 确定 ( 辟 如 说 目的 地 主机 不 在 一 个 点 对 点 链 路 的 另 一 端 ， 也 不 
在 一 个 共享 的 网 络 上 )， 那 么 返回 ENETUNREACH 错 误 。 

给 函数 sena、 sendto 或 senGmsg 使 用 MSG_DONTROUTE 标 志 也 能 在 个 别 的 数据 报 上 取得 与 本 
选项 相同 的 效果 。 

路 由 守护 进程 (routeG 和 gated) 经常 使 用 本 选项 来 绕 过 路 由 表 ( 路 由 表 不 正确 的 情况 下 )， 
以 强制 将 分 组 从 特定 接口 送出 。 


7.5.4 SO ERROR 套 接 字 选项 


当 一 个 套 接 字 上 发 生 错误 时 ， 源 自 Berkeley 的 内 核 中 的 协议 模块 将 该 套 接 字 的 名 为 
so_error 的 变量 设 为 标准 的 Unix Exxx 值 中 的 一 个 , 我 们 称 它 为 该 套 接 字 的 待 处 理 错误 (pending 
error)。 内 核能 够 以 下 面 两 种 方式 之 一 立即 通知 进程 这 个 错误 。 

(1) 如 果 进 程 阻 塞 在 对 该 套 接 字 的 select 调 用 上 (6.3 节 ), 那么 无 论 是 检查 可 读 条 件 还 是 可 
写 条 件 ，select 均 返回 并 设置 其 中 一 个 或 所 有 两 个 条 件 。 

(2) 如 果 进 程 使 用 信号 驱动 式 WO 模 型 (第 25 章 ), 那 就 给 进程 或 进程 组 产生 一 个 sIGIO 信 号 。 

进程 然后 可 以 通过 访问 so_ERROR 套 接 字 选 项 获取 so_error 的 值 。 由 getsockopt 返 回 的 整 
数值 就 是 该 套 接 字 的 待 处 理 错误 。so_error 随 后 由 内 核 复 位 为 0 (TCPv2 第 547 页 )。 

当 进 程 调用 read 且 没有 数据 返回 时 ， 如 果 so_error 为 非 0 值 ， 那 么 read 返 回 -1 自 errno 被 
置 为 so_error 的 值 (TCPv2 第 516 页 )。so_error 随 后 被 复位 为 0。 如 果 该 套 接 字 上 有 数据 在 排 
队 等 待 读 取 ， 那 么 read 返 回 那 些 数据 而 不 是 返回 错误 条 件 。 如 果 在 进程 调用 write 时 so_error 
为 非 0 值 ， 那 么 write 返回 -1 且 errno 被 设 为 so_error 的 值 (TCPv2 第 495 页 )。so_error 随 后 被 
复位 为 0。 

TCPv2 第 495 页 所 示 代 码 中 有 一 个 缺陷 ， 那 儿 so_error 没 有 被 复位 为 0， 这 在 BSD/OS 的 
版 本 中 已 经 修改 了 。 一 个 套 接 字 上 出 现 的 待 处 理 错误 一 旦 返回 给 用 户 进程 ， 它 的 so_error 
就 得 复位 为 0。 
这 是 我 们 遇 到 的 第 一 个 可 以 获取 但 不 能 设置 的 套 接 字 选 项 。 
7.5.5 SO KEEPALIVE 套 接 字 选 项 


给 一 个 TCP 套 接 字 设置 保持 存活 (keep-alive) 选项 后 ， 如 果 2 小 时 内 在 该 套 接 字 的 任 一 方向 
上 都 没有 数据 交换 ，TCP 就 自动 给 对 端 发 送 一 个 保持 存活 探测 分 节 Ckeep-alive probe)。 这 是 一 
个 对 端 必须 响应 的 TCP 分 节 ， 它 会 导致 以 下 三 种 情况 之 一 。 
(1) 对 端 以 期 望 的 ACK 响 应 。 应 用 进程 得 不 到 通知 〈 因 为 一 切 正 常 )。 在 又 经 过 仍 无 动静 的 
2 小 时 后 ，TCP 将 发 出 另 一 个 探测 分 节 。 
(2) 对 端 以 RST 响 应 ， 它 告知 本 端 TCP: 对 端 已 崩溃 且 已 重新 启动 。 该 套 接 字 的 待 处 理 错误 
被 置 为 ECONNRESET， 套 接 字 本 身 则 被 关闭 。 
(3) 对 端 对 保持 存活 探测 分 节 没 有 任何 响应 。 源 自 Berkeley 的 TCP 将 另外 发 送 8 个 探测 分 节 ， 
两 两 相隔 75 秒 ， 试 图 得 到 一 个 响应 。TCP 在 发 出 第 一 个 探测 分 节 后 11 分 15 秒 内 车 没有 得 到 任何 
响应 则 放弃 。 
HP-UX 以 处 理 数据 的 方式 来 处 理 保 持 存 活 探测 分 节 ， 即 在 重 传 超时 之 后 发 送 第 二 个 探测 
分 节 ， 并 把 超时 值 加 倍 ， 这 样 一 直 重 传 到 预 配置 最 大 间隔 时 间 为 止 ， 而 最 大 间隔 时 间 的 默认 
值 为 10 分 钟 。 
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如 果 根 本 没有 对 TCP 的 探测 分 节 的 响应 ， 该 套 接 字 的 待 处 理 错误 就 被 署 为 BTIMEOUT， 套 接 
字 本 身 则 被 关闭 。 然 而 如 果 该 套 接 字 收 到 一 个 ICMP 错 误 作 为 某 个 探测 分 节 的 响应 ， 那 就 返回 相 
应 的 错误 (图 A-15 和 图 A-16)， 套 接 字 本 身 也 被 关闭 。 这 种 情形 下 一 个 常见 的 ICMP 错 误 是 “host 
unreachable”( 主 机 不 可 达 )， 说 明 对 端 主机 可 能 并 没有 崩溃 ， 只 是 不 可 达 ， 这 种 情况 下 待 处 理 
错误 被 置 为 EBHOSTUNREACH。 发 生 这 种 情况 的 原因 或 者 是 发 生 网 络 故障 ,或 者 是 对 端 主机 已 经 般 
溃 ， 而 最 后 一 跳 的 路 由 器 也 已 经 检测 到 它 的 裔 溃 。 

TCPv1 第 23 章 和 TCPv2 第 828 一 831 页 均 有 对 保持 存活 选项 的 详细 阐述 。 

对 于 本 选项 的 一 个 最 常见 的 问题 无 疑 是 时 间 参 数 是 否 可 改 ( 通 常 是 想 把 2 小 时 的 无 活动 周期 
改 为 短 些 的 值 )。TCPv1 的 附录 E 讨 论 了 如 何 给 各 种 内 核 修改 这 些 定时 参数 ， 不 过 必须 注意 大 多 
数 内 核 是 基于 整个 内 核 维 护 这 些 时 间 参 数 的 ， 而 不 是 基于 每 个 套 接 字 维护 的 ， 因 此 如 果 把 无 活 
动 周 期 从 2 小 时 改 为 (譬如 说 ) 15 分 钟 ， 那 将 影响 到 该 主机 上 所 有 开启 了 本 选项 的 套 接 字 。 然 而 
这 些 问 题 通常 是 由 对 本 选项 功用 的 误解 导致 的 。 

本 选项 的 功用 是 检测 对 端 主机 是 否 裔 省 或 变 得 不 可 达 〈 壁 如 拨号 调制 解 调 器 连接 掉 线 ， 电 
源 发 生 故 障 ， 等 等 )。 如 果 对 端 进程 崩溃， 它 的 TCP 将 跨 连 接 发 送 一 个 FIN， 这 可 以 通过 调用 
select 很 容易 地 检测 到 。( 这 就 是 我 们 在 6.4 节 中 使 用 select 的 原因 。) 同时 也 要 认识 到 ， 即 使 
对 任何 保持 存活 探测 分 节 均 无 响应 〈 第 三 种 情况 )， 我 们 也 不 能 肯定 对 端 主机 已 经 裔 溃 ， 因 而 
TCP 可 能 会 终止 一 个 有 效 连 接 。 某 个 中 间 路 由 器 崩溃 15 分 钟 是 有 可 能 的 ， 而 这 段 时 间 正 好 与 主 
机 的 11 分 15 秒 的 保持 存活 探测 周期 完全 重 迭 。 事 实 上 本 功能 称 为 “切断 ”(make-dead) 而 不 是 
“保持 存活 ”也 许 更 合适 些 ， 因 为 它 可 能 终止 存活 的 连接 。 

本 选项 一 般 由 服务 器 使 用 ， 不 过 客户 也 可 以 使 用 。 服 务 器 使 用 本 选项 是 因为 它们 花 大 部 分 
时 间 阻 塞 在 等 待 穿越 TCP 连 接 的 输入 上 ， 也 就 是 说 在 等 待 客 户 的 请 求 。 然 而 如 果 客 户主 机 连接 
掉 线 、 电 源 掉 电 或 系统 崩溃 ， 服 务 器 进程 将 永远 不 会 知道 ， 并 将 继续 等 待 永远 不 会 到 达 的 输入 。 
我 们 称 这 种 情况 为 半 开 连接 Chalf-open connection)。 保 持 存 活 选 项 将 检测 出 这 些 半 开 连接 并 终 
止 它们 。 

有 些 服务 器 (特别 是 FTP 服 务 器 〉 提供 一 个 分 钟 量 级 的 应 用 层 超 时 。 这 是 由 应 用 进程 本 身 
完成 的 ， 一 般 在 读 下 一 个 客户 命令 的 read 调 用 附近 。 这 个 超时 与 本 套 接 字 选 项 无 关 。 这 通常 是 
清理 通 向 不 可 达 客 户 的 半 开 连接 的 较 好 办 法 ， 因 为 如 果 应 用 系统 自己 实现 超时 ， 应 用 进程 就 具 
备 完全 的 控制 能 力 。 

SCTP 有 与 TCP 的 保持 存活 机 制 类 似 的 心 搏 (heartbeat ) 机 制 ， 心 持 机 制 通过 本 章 稍 后 讨 
论 的 SCTP_SET_PEER_ADDR_PARAMS 套 接 字 选 项 的 参数 而 不 是 本 套 接 字 选 项 控制 。 对 SCTP 
套 接 字 进 行 本 套 接 字 选 项 的 设置 将 被 忽略 ， 它 不 影响 SCTP 的 心 搏 机 制 。 

图 7-6 对 一 个 TCP 连 接 的 另 一 端 发 生 某 些 事件 时 我 们 可 以 采用 的 各 种 检测 方法 作 了 汇总 。 当 

我 们 说 “使 用 select 判 断 可 读 条 件 ” 时 ， 其 含义 为 调用 select 来 检测 套 接 字 是 否 可 读 。 


7.5.08 SO LINGER 套 接 字 选项 


本 选项 指定 close 函 数 对 面向 连接 的 协议 (例如 TCP 和 SCTP， 但 不 是 UDP〉 如 何 操作 。 默 
认 操 作 是 close 立 即 返回 ， 但 是 如 果 有 数据 残留 在 套 接 字 发 送 缓冲 区 中 ， 系 统 将 试 着 把 这 些 数 
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对 端 TCP 发 送 - -个 FIN， 这 通过 使 用 本 端 TCP 将 超时 , Hd 本 端 TCP 将 超时 , 且 套 接 
select 判 断 可 读 条 件 立 即 能 检测 出 | 字 的 待 处理 错 误 被 设置 为 | 字 的 待 处 理 错误 被 设置 为 
来 。 如 果 本 端 TCP 发 送 另外 一 个 分 节 ， | ETIMEDOUT EHOSTUNREACH 
对 端 TCP 就 以 RST 响 应 。 如 果 在 本 端 
TCP 收 到 RST 之 后 应 用 进程 仍 试 图 写 
ERF, 我 们 的 套 接 字 实现 就 给 该 进程 
发 送 - :个 SIGPIPE 信 和 号 
对 端 TCP 将 发 送 一 个 FIN， 我 们 将 把 
它 作 为 一 个 (可 能 是 过 早 的 ) EOF 读 入 
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我 们 将 停止 接收 数据 我 们 将 停止 接收 数据 


对 端 TCP 发 送 - -个 FIN， 这 通过 使 用 在 毫 无 动静 2 小 时 后 ， 发 在 毫 无 动静 2 小 时 后 ， 发 
select 判 断 可 读 条 件 立即 能 检测 出 来 “| 送 9 个 保持 存活 探测 分 节 ， | 送 9 个 保持 存活 探测 分 节 ， 
然后 套 接 字 的 待 处 理 错 误 | 然后 套 接 字 的 待 处 理 错误 
被 设置 为 ETIMEDOUT 被 设置 为 EHOSTUNREACH 


本 端 TCP 正 
主动 接收 数据 


连接 空闲 ， 
保持 存活 选项 
已 设置 


























对 端 TCP 发 送 .个 FIN， 这 通过 使 用 
select 判 断 可 读 条 件 立 即 能 检测 出 来 


连接 空闲 ， 
保持 存活 选项 
未 设置 





图 7-6 ”检测 各 种 TCP 条 件 的 方法 


sO_LINGER 套 接 字 选 项 使 得 我 们 可 以 改变 这 个 默认 设置 。 本 选项 要 求 在 用 户 进程 与 内 核 间 
传递 如 下 结构 ， 它 在 头 文件 <sys/socket .h> 中 定义 : 


struct linger { 

int 1 onoff; /* O=off, nonzero-on */ 

int 1 linger; /* linger time, POSIX specifies units as seconds */ 
HE 
对 setsockopt 的 调用 将 根据 其 中 两 个 结构 成 员 的 值 形成 下 列 3 种 情形 之 一 。 

(1) 如 果 1_onoff 为 0， 那 么 关闭 本 选项 。1_linger 的 值 被 忽略 ， 先 前 讨论 的 TCP 默 认 设 置 
生效 ， 即 close 立 即 返回 。 

(2) 如 果 1_onoff 为 非 0 值 且 1_1linger 为 0， 那 么 当 close 某 个 连接 时 TCP 将 中 止 该 连接 
CTCPv2 第 1019 一 1020 页 )。 这 就 是 说 TCP 将 丢弃 保留 在 套 接 字 发 送 缓冲 区 中 的 任何 数据 ， 并 发 
送 一 个 RST 给 对 端 ， 而 没有 通常 的 四 分 组 连接 终止 序列 〈2.6 节 )。 我 们 将 在 图 16-21 中 给 出 这 样 
的 一 个 例子 。 这 么 一 来 避免 了 TCP 的 TIME_WAIT 状 态 ， 然 而 存在 以 下 可 能 性 : 在 2MSL 秒 内 创 
建 该 连接 的 另 一 个 化 身 ， 导 致 来 自 刚 被 终止 的 连接 上 的 旧 的 重复 分 节 被 不 正确 地 递送 到 新 的 化 
身上 (2.7 节 )。 

这 种 情形 下 SCTP 也 通过 发 送 一 个 ABORT 块 给 对 端 而 中 止 性 地 关闭 关联 CL Stewart and Xie 
2001] 9.2 节 )。 


偶尔 张贴 在 USENET 上 的 消息 提倡 使 用 本 特性 ， 其 目的 是 为 了 避免 TIME_WAIT 状 态 ， 并 
且 即 使 在 跟 某 个 服务 器 的 众所周知 端口 的 连接 仍 在 使 用 的 情况 下 也 能 重启 其 监听 服务 器 .这 
么 做 万 万 不 可 ， 它 可 能 导致 数据 被 破坏 ， 详 情 见 RFC 1337 [Braden 1992a l. 作为 替代 ， 总 是 
在 服务 器 程序 中 调用 binaG 前 使 用 SoO_REUSERADDR 套 接 字 选项 ， 我 们 马上 会 讲述 到 . 
TIME_WAIT 状 态 是 我 们 的 朋友 ， 它 是 有 助 于 我 们 的 (也 就 是 说 ， 它 让 旧 的 重复 分 节 在 网 络 中 
超时 消失 )。 不 要 试图 避免 这 个 状态 ， 而 是 应 该 弄 清 楚 它 (2.77). 

个 别 环境 下 使 用 本 特性 执行 中 止 性 的 关闭 是 合理 的 。 例子 之 一 是 因 试图 向 某 个 停滞 的 终 
端 端口 递送 数据 而 可 能 永远 浪 留 在 CLOSE_WAIT 状 态 的 一 个 RS-232 终 端 服务 器 ， 要 是 它 得 到 
一 个 RST 以 丢弃 待 处 理 的 数据 ， 它 会 适当 地 复位 那个 停滞 的 终端 端口 。 


(3) 如 果 1_onoff 为 非 0 值 且 1_1inger 也 为 非 0 值 ， 那 么 当 套 接 字 关闭 时 内 核 将 拖延 一 段 时 
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间 。 这 就 是 说 如 果 在 套 接 字 发 送 缓冲 区 中 仍 残留 有 数据 ， 那 么 进程 将 被 投入 睡眠 ， 直 到 〈a) 所 
有 数据 都 已 发 送 完 且 均 被 对 方 确认 或 (bo 延 灌 时 间 到 。 如 果 套 接 字 被 设置 为 非 阻 塞 型 〈 第 16 
章 ), 那么 它 将 不 等 待 close 完 成 ， 即 使 延 沾 时 间 为 非 0 也 是 如 此 。 当 使 用 so_LINGER 选 项 的 这 个 
特性 时 ， 应 用 进程 检查 close 的 返回 值 是 非常 重要 的 ， 因 为 如 果 在 数据 发 送 完 并 被 确认 前 延 滞 
时 间 到 的 话 , close 将 返回 EwouULDBLOCK 错 误 , 且 套 接 字 发 送 缓冲 区 中 的 任何 残留 数据 都 被 丢弃 。 
现在 我 们 需要 看 看 ， 对 于 已 讨论 的 各 种 情况 ， 套 接 字 上 的 close 确 切 来 说 是 什么 时 候 返 回 

的 。 我 们 假设 客户 将 数据 写 到 套 接 字 上 ， 然 后 调用 close。 图 7-7 给 出 了 默认 情况 。 





客户 服务 器 
write 数据 
close — m 由 TCP 排 队 数据 
FIN 的 确认 
Lia 应 用 进程 读 排队 的 数据 和 FIN 
close 
数据 和 FIN 的 确认 





图 7-7 close 的 默认 操作 :立即 返回 


我 们 假设 在 客户 数据 到 达 时 ， 服 务 器 暂时 处 于 忙 状态 。 那 么 这 些 数据 由 TCP 加 入 到 服务 器 
的 套 接 字 接收 缓冲 区 中 。 类 似 地 ， 下 一 个 分 节 即 客户 的 FIN 也 加 入 该 套 接 字 接收 缓冲 区 中 (不 
论 实 现 以 何 种 方法 记录 该 连接 上 已 收 到 一 个 FIN 这 一 事件 )。 默 认 情况 下 客户 的 close 立 即 返 回 。 
如 图 所 示 ， 客 户 的 close 可 能 在 服务 器 读 套 接 字 接 收 缓 区 中 的 剩余 数据 之 前 就 返回 。 对 于 服务 
器 主机 来 说 ， 在 服务 器 应 用 进程 读 这 些 剩 余数 据 之 前 就 崩溃 是 完全 可 能 的 ， 而 且 客 户 应 用 进程 
永远 不 会 知道 。 

客户 可 以 设置 So_LINGER 套 接 字 选项 ， 指 定 一 个 正 的 延 滞 时 间 。 这 种 情况 下 客户 的 close 
要 到 它 的 数据 和 FIN 己 被 服务 器 主机 的 TCP 确 认 后 才 返 回 ， 如 图 7-8 所 示 。 


close 返 回 


close 


客户 服务 器 
write 数据 
close -一 一 人 一 一 ~- 由 TCP 排 队 数据 
L. and s 
应 用 进程 读 排 队 的 数据 和 FIN 


数据 和 FIN 的 确认 





图 7-8 ”设置 so_LINGER 套 接 字 选 项 上 且 1_1inger 为 正 值 时 的 close 
然而 我 们 仍然 有 与 图 7-7 一 样 的 问题 : 在 服务 器 应 用 进程 读 剩余 数据 之 前 ， 服 务 器 主机 可 能 


崩溃 ， 并 且 客 户 应 用 进程 永远 不 会 知道 。 更 糟糕 的 是 ， 图 7-9 展 示 了 当 给 so_LINGER 选 项 设置 仿 
低 的 延 灌 时 间 值 时 可 能 发 生 的 现象 。 
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客户 服务 器 


write 数据 
— — me 由 TCP 排 队 数据 
FIN 的 确认 
in 应 用 进程 读 排 队 的 数据 和 FIN 
i close 


图 7-9 ”设置 So0_LINGER 套 接 字 选 项 上 且 1_1inger 为 偏 小 正 值 时 的 close 


这 里 有 一 个 基本 原则 : 设置 so_LINGER 套 接 字 选项 后 ，close 的 成 功 返回 只 是 告诉 我 们 先 
前 发 送 的 数据 《和 FIN) 已 由 对 端 TCP 确 认 ， 而 不 能 告诉 我 们 对 端 应 用 进程 是 否 已 读 取 数据 。 如 
果 不 设置 该 套 接 字 选项 ， 那 么 我 们 连 对 端 TCP 是 否 确认 了 数据 都 不 知道 。 

让 客户 知道 服务 器 已 读 取 其 数据 的 一 个 方法 是 改 为 调用 shutdown (并 设置 它 的 第 二 个 参数 
为 SHUT_WR) 而 不 是 调用 close， 并 等 待 对 端 close 连 接 的 当地 端 〈 服 务 器 端 )， 如 图 7-10 所 示 。 









close 


closeiR|9€-1, errno 
被 署 为 BWOULDBLOCK 


客户 服务 器 
write 数据 
CT nomm 
rea: 
IN 的 确认 
数据 和 F 应 用 进程 读 排队 的 数据 和 FIN 
close 
read 返 回 0 


数据 和 FIN 的 确认 





图 7-10 用 shutaown 来 获知 对 方 已 接收 数据 


比较 本 图 与 图 7-7 及 图 7-8 我 们 看 到 ， 当 关闭 连接 的 本 地 端 〈 客 户 端 ) 时 ， 根 据 所 调用 的 函 
数 (closeMshutdown) 以 及 是 否 设置 了 so_LINGER 套 接 字 选 项 ， 可 在 以 下 3 个 不 同 的 时 机 返 
回 。 
(1) close 立即 返回 ， 根 本 不 等 待 〈 默 认 状 况 ， 图 7-7)。 
(2) close 一 直 拖 延 到 接收 了 对 于 客户 端 FIN 的 ACK 才 返回 (图 7-8)。 
(3) 后 跟 一 个 reag 调 用 的 shutdown 一 直 等 到 接收 了 对 端的 FIN 才 返回 (图 7-10)。 
获知 对 端 应 用 进程 已 读 取 我 们 的 数据 的 另外 一 个 方法 是 使 用 应 用 级 确认 Capplication-level 
acknowledge， 简 称 应 用 ACK (application ACK))。 在 下 面 的 例子 中 ， 客 户 在 向 服务 器 发 送 数据 
后 调用 read 来 读 取 1 个 字 节 的 数据 : 


char ack; 
Write(sockfd, data, nbytes); /* data from client to server */ 
n - Read(sockfd, &ack, 1); /* wait for application-level ACK */ 


服务 器 读 取 来 自 客户 的 数据 后 发 回 1 个 字 节 的 应 用 级 ACK: 
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nbytes = Read(sockfd, buff, sizeof (buff)); /* data from client */ 
/* server verifies it received correct 
amount of data from the client */ 
Write(sockfd, "", 1); /* server's ACK back to client */ 


当 客 户 的 read 返 回 时 ， 我 们 可 以 保证 服务 器 进程 已 读 完了 我 们 所 发 送 的 所 有 数据 。( 假 设 
服务 器 知道 客户 要 发 送 多 少数 据 ， 或 者 由 应 用 程序 定义 了 某 个 记录 结束 标志 ， 不 过 这 儿 没有 给 
出 。) 本 例子 的 应 用 级 ACK 是 值 为 0 的 1 个 字 节 ， 不 过 该 字 节 的 内 容 可 以 用 来 从 服务 器 向 客户 指 
示 其 他 的 条 件 。 图 7-11 展 示 了 可 能 的 分 组 交换 过 程 。 


客户 服务 器 


由 TCP 排 队 数据 


读 排 队 的 数据 ， 处 理 数据 
写 1 个 字 节 (应 用 ACK ) 


对 应 用 进程 来 说 是 EOF 


close 





FIN 的 确认 





图 7-11 应 用 ACK 
图 7-12 汇 总 了 对 shutdown 的 两 种 可 能 调用 和 对 close 的 三 种 可 能 调用 ， 以 及 它们 对 TCP 套 


接 字 的 影响 。 










在 套 接 字 上 不 能 再 发 出 接收 请 求 ， 进 程 仍 可 往 套 接 字 发 送 数 据 ， 套 接 字 接收 
缓冲 区 中 所 有 数据 被 丢弃 ， 再 接收 到 的 任何 数据 由 TCP 丢 弃 〈 习 题 6.5)， 对 套 接 
字 发 送 缓冲 区 没有 任何 影响 。 


在 套 接 字 上 不 能 再 发 出 发 送 请 求 ， 进 程 仍 可 从 套 接 字 接 收 数 据 ; BEF RIK 
缓冲 区 中 的 内 容 被 发 送 到 对 端 ， 后 跟 正 常 的 TCP 连 接 终止 序列 〈 即 发 送 FIN); 对 
套 接 字 接收 缓冲 区 无 任何 影响 。 


在 套 接 字 上 不 能 再 发 出 发 送 或 接收 请 求 ， 套 接 字 发 送 缓冲 区 中 的 内 容 被 发 送 
到 对 端 。 如 果 描述 符 引 用 计数 变 为 0， 在 发 送 完 发 送 缓冲 区 中 的 数据 后 ， 跟 以 正 
常 的 TCP 连 接 终止 序列 〈 即 发 送 FIN)， 套 接 字 接收 缓冲 区 中 内 容 被 丢弃 。 


在 套 接 字 上 不 能 再 发 出 发 送 或 接收 请 求 。 如 果 描 述 符 引 用 计数 变 为 0，RST 被 
发 送 到 对 端 ; 连接 的 状态 被 置 为 CLOSED (没有 TIME_WAIT 状 态 );， 套 接 字 发 送 
缓冲 区 和 套 接 字 接 收 缓冲 区 中 的 数据 被 丢弃 。 
在 套 接 字 上 不 能 再 发 出 发 送 或 接收 请 求 ， 套 接 字 发 送 缓冲 区 中 的 数据 被 发 送 
到 对 端 。 如 果 描 述 符 引 用 计数 变 为 0， 在 发 送 完 发 送 绥 冲 区 中 的 数据 后 ， 跟 以 正 
常 的 TCP 连 接 终止 序列 ( 即 发 送 FIN); 套 接 字 接 收 缓冲 区 中 数据 被 丢弃 ， 如果 在 
连接 变 为 CLOSED 状 态 前 延 河 时 间 到 ， 那 么 close 返 回 EwouLDBLoOcCK 错 误 。 


图 7-12 ”shutdown 和 sO_LINGER 各 种 情况 的 总 结 













shutdown, SHUT_RD 

dca 
close, 1 onoff 0 
(默认 情况 ) 


close, l_onoff = 1 
1l. linger = 0 





































close, l onoff - 1 
l linger != 0 
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7.5.7 SO OOBINLINE 套 接 字 选项 


当 本 选项 开启 时 ， 带 外 数据 将 被 留 在 正常 的 输入 队列 中 《〈 即 在 线 留 存 )。 这 种 情况 下 接收 函 
数 的 MsG_ooB 标 志 不 能 用 来 读 带 外 数据 。 我 们 将 在 第 24 章 中 详细 讨论 带 外 数据 。 


7.5.8 so RcVBUF 和 SO SNDBUF 套 接 字 选项 


每 个 套 接 字 都 有 一 个 发 送 缓冲 区 和 一 个 接收 缓冲 区 。 我 们 在 图 2-15、 图 2-16 和 图 2-17 中 分 别 
描述 了 TCP、UDP 和 SCTP 套 接 字 中 发 送 缓冲 区 的 操作 。 

接收 缓冲 区 被 TCP、UDP 和 SCTP 用 来 保存 接收 到 的 数据 , 直到 由 应 用 进程 来 读 取 。 对 于 TCP 
来 说 ， 套 接 字 接收 缓冲 区 中 可 用 空间 的 大 小 限定 了 TCP 通 告 对 端的 窗口 大 小 。TCP 套 接 字 接收 
缓冲 区 不 可 能 溢出 ， 因 为 不 允许 对 端 发 出 超过 本 端 所 通告 窗口 大 小 的 数据 。 这 就 是 TCP 的 流量 
控制 ， 如 果 对 端 无 视窗 口 大 小 而 发 出 了 超过 该 窗口 大 小 的 数据 ， 本 端 TCP 将 丢弃 它们 。 然 而 对 
于 UDP 来 说 ， 当 接收 到 的 数据 报 装 不 进 套 接 字 接 收 缓冲 区 时 ， 该 数据 报 就 被 丢弃 。 回 顾 一 下 ， 
UDP 是 没有 流量 控制 的 : 较 快 的 发 送 端 可 以 很 容易 地 淹没 较 慢 的 接收 端 ， 导 致 接收 端的 UDP 丢 
弃 数 据 报 ， 我 们 在 8.13 节 将 展示 这 一 点 。 事 实 上 较 快 的 发 送 端 甚至 可 以 淹没 本 机 的 网 络 接口 ， 
导致 数据 报 被 本 机 丢弃 。 

这 两 个 套 接 字 选 项 允许 我 们 改变 这 两 个 缓冲 区 的 默认 大 小 。 对 于 不 同 的 实现 ， 默 认 值 的 大 
小 可 以 有 很 大 的 差别 。 较 早期 的 源 自 Berkeley 的 实现 将 TCP 发 送 和 接收 缓冲 区 的 大 小 均 默 认为 
4096 字 节 ， 而 较 新 的 系统 使 用 较 大 的 值 ， 可 以 是 8 192 一 61 440 字 节 间 的 任何 值 。 如 果 主 机 支持 
NFS， 那 么 UDP 发 送 缓冲 区 的 大 小 经 常 默 认为 9000 字 节 左 右 的 一 个 值 ， 而 UDP 接 收 缓冲 区 的 大 
小 则 经 常 默 认为 40 000 字 节 左 右 的 一 个 值 。 

当 设 置 TCP 套 接 字 接 收 缓冲 区 的 大 小 时 ， 函 数 调用 的 顺序 很 重要 。 这 是 因为 TCP 的 窗口 规 
模 选 项 (2.6 节 ) 是 在 建立 连接 时 用 SYN 分 节 与 对 端 互 换 得 到 的 。 对 于 客户 , 这 意味 着 SO_RCVBUF 
选项 必须 在 调用 connect 之 前 设置 ， 对 于 服务 器 ， 这 意味 着 该 选项 必须 在 调用 1isten 之 前 给 监 
听 套 接 字 设 置 。 给 已 连接 套 接 字 设 置 该 选项 对 于 可 能 存在 的 窗口 规模 选项 没有 任何 影响 ， 因 为 
accept 直 到 TCP 的 三 路 握手 完成 才 会 创建 并 返回 已 连接 套 接 字 。 这 就 是 必须 给 监听 套 接 字 设 置 
本 选项 的 原因 。( 套 接 字 缓 冲 区 的 大 小 总 是 由 新 创建 的 已 连接 套 接 字 从 监听 套 接 字 继承 而 来 : 
TCPv2 第 462 一 463 页 ) 。 

TCP 套 接 字 缓冲 区 的 大 小 至 少 应 该 是 相应 连接 的 MSS 值 的 四 倍 。 对 于 单 向 数据 传输 〈 璧 如 
单个 方向 的 文件 传送 )， 当 我 们 说 “ 套 接 字 缓 冲 区 大 小 ”时 ， 我 们 指 的 是 发 送 端 主机 上 的 套 接 字 
发 送 缓冲 区 大 小 和 接收 端 主机 上 的 套 接 字 接 收 缓冲 区 大 小 。 对 于 双向 数据 传输 ， 我 们 在 发 送 端 
指 的 是 收发 两 个 套 接 字 缓 冲 区 的 大 小 ， 在 接收 端 也 是 指 收发 两 个 套 接 字 缓 冲 区 的 大 小 。 典 型 的 
缓冲 区 大 小 默认 值 是 8192 字 节 或 更 大 ， 和 典型 的 MSS 值 为 512 或 1460， 这 些 要 求 一 般 总 能 被 满足 。 

TCP 套 接 字 缓 冲 区 的 大 小 至 少 为 MSS 值 的 4 倍 这 一 点 的 依据 是 TCP 快 速 恢复 算法 的 工作 
机 制 。TCP 发 送 端 使 用 3 个 重复 的 确认 来 检测 某 个 分 节 是 否 丢 失 (REC 2581 [ Allman, Paxson, 
and Stevens 1999 ] )。 发现 某 个 分 节 丢 失 后 ， 接 收 端 将 给 新 收 到 的 每 个 分 节 发 送 一 个 重复 的 确 
认 。 如 果 窗 口 大 小 不 足以 存放 4 个 这 样 的 分 节 ， 那 就 不 可 能 连 发 三 个 重复 的 确认 ， 从 而 无 法 激 
活 快速 恢复 算法 。 

为 避免 潜在 的 缓冲 区 空间 浪费 ，TCP 套 接 字 缓冲 区 大 小 还 必须 是 相应 连接 的 MSS 值 的 偶数 
音 。 有 些 实现 替 应 用 进程 处 理 这 个 细节 问题 , 在 连接 建立 后 向 上 含 入 套 接 字 缓 冲 区 大 小 CTCPv2 
第 902 页 )。 这 是 在 建立 连接 之 前 设置 这 两 个 套 接 字 选 项 的 另外 一 个 原因 。 使 用 默认 的 4.4BSD 大 
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小 8 192 举 例 来 说 ， 假 设 以 太 网 的 MSS 为 1 460, 在 连接 建立 时 收发 两 个 套 接 字 缓冲 区 的 大 小 将 被 
向 上 舍 入 成 8760 (6X1460)。 这 个 要 求 并 非 必需 ， 只 不 过 套 接 字 缓 冲 区 中 MSS 整 数 倍 大 小 以 外 
的 空间 不 会 被 使 用 。 

在 设置 套 接 字 缓冲 区 大 小 时 另 一 个 需 考 虑 的 问题 涉及 性 能 。 图 7-13 展 示 了 两 个 端点 之 间 容 
量 为 8 个 分 节 的 一 个 TCP 连 接 〈 我 们 称 其 为 管道 )。 


£^ ex 
| jack | ACK 2 ACK 4 


图 7-13 ”8 个 分 节 容 量 的 TCP 连 接 (管道 ) 


我 们 在 项 部 给 出 4 个 数据 分 节 ， 在 底部 给 出 4 个 ACK。 即 使 管道 中 只 有 4 个 数据 分 节 ， 客 户 
也 必须 有 至 少 8 个 分 节 容量 的 发 送 缓冲 区 ， 因 为 客户 TCP 必 须 为 每 个 分 节 保 留 一 个 副本 ， 直 到 接 
收 到 来 自 服务 器 的 相应 ACK。 


这 里 我 们 忽略 了 一 些 细节 。 首 先 ，TCP 的 慢 启 动 算法 限制 了 在 一 个 空闲 连接 上 最 初 发 送 
分 节 的 速度 。 其 次 ，TCP 通 常 每 两 个 分 节 确 认 一 次 ， 而 不 是 我 们 所 示 的 每 个 分 节 确 认 一 次 。 
所 有 这 些 细节 在 TCPv1 的 第 20 章 和 第 24 章 均 有 阐述 。 


理解 的 重点 在 于 全 双 工 管道 的 概念 、 它 的 容量 以 及 它们 如 何 关 系 到 连接 两 端的 套 接 字 缓 冲 
区 大 小 。 管 道 的 容量 称 为 带宽 -延迟 积 (bandwidth-delay product)， 它 通过 将 带宽 (bits) 和 RTT 
G) 相 乘 ， 再 将 结果 由 位 转换 为 字 节 计 算得 到 。 其 中 RTT 可 以 很 容易 地 使 用 ping 程 序 测 得 。 

带宽 是 相应 于 两 个 端点 之 间 最 慢 链 路 的 值 ， 某 种 程度 上 是 已 知 的 。 举 例 来 说 ，RTT 为 60 ms 
的 一 条 T1 链 路 (1536000 bit/s) 的 带宽 -延迟 积 为 11 520 字 节 。 如 果 套 接 字 缓冲 区 大 小 小 于 该 值 ， 
管道 将 不 会 处 于 满 状态 ， 性 能 也 将 低 于 期 望 值 。 当 带宽 变 大 (如 45 Mbit/s 的 T3 链 路 〉 或 RTT 变 
大 (如 RTT 约 为 500 ms 的 卫星 链 路 ) 时 ， 套 接 字 缓 冲 区 也 需要 增长 。 当 带宽 -延迟 积 超过 TCP 的 
最 大 正常 窗口 大 小 (65 535 字 节 ) 时 ， 两 端 就 得 设置 我 们 在 2.6 节 提 到 过 的 TCP 长 胖 管 道 (long fat 
pipe) 选项 。 





大 多 数 实现 对 套 接 字 发 送 缓冲 区 和 接收 缓冲 区 的 大 小 都 设 有 一 个 上 限 ， 有 时 这 个 上 限 可 
由 管理 员 进 行 修改 . 较 早 期 的 源 自 Berkeley 的 实现 有 一 个 约 为 52 000 字 节 的 硬 上 限 ， 然 而 较 新 
的 实现 将 默认 值 增加 为 2$6 000 字 节 其 至 更 大 ， 而 且 通 常 可 以 由 管理 员 继 续 增加 。 不 幸 的 是 ， 
对 于 应 用 程序 来 说 , 没有 一 个 简单 的 方法 来 确定 这 个 极限 . POSIX X XT fpathcont Hak ( K 
多 数 实现 都 支持 )， 使 用 _PC_SOCK_MAXBUF 常 值 作 为 它 的 第 二 个 参数 ， 我 们 就 能 获取 套 接 字 
缓冲 区 的 最 大 大 小 。 当 然 应 用 程序 也 可 以 先 尝试 把 套 接 字 缓 冲 区 设置 成 预想 的 大 小 ， 若 失败 
则 减 半 继续 尝试 ， 直 到 成 功 。 最 后 我 们 指出 ， 应 用 程序 在 把 套 接 字 缓 冲 区 的 大 小 设置 成 菜 个 
预 配置 的 “大 ” 值 时 ， 应 该 确保 这 样 做 不 会 反而 让 缓冲 区 变 小 了 ; 最 好 一 开始 就 调用 
getsockopt 获 取 系 统 的 默认 值 并 判定 是 否 已 足够 大 。 


7.5.9 SO RCVLOWAT 和 SO_SNDLOWAT 套 接 字 选项 


每 个 套 接 字 还 有 一 个 接收 低 水 位 标记 和 一 个 发 送 低 水 位 标记 。 它 们 由 select 函 数 使 用 ， 如 
6.3 节 所 述 。 这 两 个 套 接 字 选 项 允许 我 们 修改 这 两 个 低 水 位 标记 。 

接收 低 水 位 标记 是 让 select 返 回 “ 可 读 ” 时 套 接 字 接 收 缓冲 区 中 所 需 的 数据 量 。 对 于 TCP、 
UDP 和 SCTP 套 接 字 ， 其 默认 值 为 1。 发 送 低 水 位 标记 是 让 select 返 回 “ 可 写 ” 时 套 接 字 发 送 组 
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冲 区 中 所 需 的 可 用 空间 。 对 于 TCP 套 接 字 ， 其 默认 值 通 常 为 2048。 如 6.3 节 所 述 ，UDP 也 使 用 发 
送 低 水 位 标记 ， 然 而 由 于 UDP 套 接 字 的 发 送 缓冲 区 中 可 用 空间 的 字 节 数 从 不 改变 〈 因 为 UDP 并 
不 为 由 应 用 进程 传递 给 它 的 数据 报 保留 副本 ), 只 要 一 个 UDP 套 接 字 的 发 送 缓冲 区 大 小 大 于 该 套 
接 字 的 低 水 位 标记 ， 该 UDP 套 接 字 就 总 是 可 写 。 回 顾 图 2-16， 我 们 记得 UDP 并 没有 发 送 缓冲 区 ， 
而 只 有 发 送 缓冲 区 大 小 这 个 属性 。 


7.5.10 So RCVTIMEO 和 SO_SNDTIMEO 套 接 字 选项 


这 两 个 选项 允许 我 们 给 套 接 字 的 接收 和 发 送 设置 一 个 超时 值 。 注 意 ， 访 问 它 们 的 
getsockopt 和 setsockopt 函 数 的 参数 是 指向 timeval 结 构 的 指针 ,与 select 所 用 参数 相同 (6.3 
节 )。 这 可 让 我 们 用 秒 数 和 微 秒 数 来 规定 超时 。 我 们 通过 设置 其 值 为 0 和 0hs 来 禁止 超时 。 默 认 
情况 下 这 两 个 超时 都 是 禁止 的 。 

接收 超时 影响 5 个 输入 函数 ，read、readv、recv、recvfrom 和 recvmsg。 发 送 超 时 影响 5 
个 输出 函数 : write、writev、send、sendto 和 sendmsg。 我 们 将 在 14.2 节 详细 讨论 套 接 字 超 
时 。 

这 两 个 套 接 字 选 项 以 及 套 接 字 接 收 超 时 和 发 送 超 时 的 继承 概念 是 在 4.3BSD Reno 中 增加 

的 。 

在 源 自 Berkeley 的 实现 中 , 这 两 个 值 实 际 上 用 于 实现 针对 读 或 写 系统 调用 的 休止 状态 定时 

3& (inactivity timer )， 而 不 是 不 论 状 态 的 绝对 定时 器 (absolute timer )。TCPv2 第 496 ~ 516 页 
对 此 作 了 详细 讨论 。 


7.5.11 SO_REUSEADDR 和 SO REUSEPORT 套 接 字 选 项 


SO_REUSEADDR 套 接 字 选项 能 起 到 以 下 4 个 不 同 的 功用 。 

(1) SO_REUSEADDR 人 允许 启动 一 个 监听 服务 器 并 捆绑 其 众所周知 端口 ， 即 使 以 前 建立 的 将 该 
端口 用 作 它 们 的 本 地 端口 的 连接 仍 存 在 。 这 个 条 件 通常 是 这 样 碰 到 的 : 

a) 启动 一 个 监听 服务 器 ; 

b) 连接 请 求 到 达 ， 派 生 一 个 子 进程 来 处 理 这 个 客户 ; 

c) 监听 服务 器 终止 ， 但 子 进程 继续 为 现 有 连接 上 的 客户 提供 服务 ; 

d) 重启 监听 服务 器 。 

默认 情况 下 ， 当 监听 服务 器 在 步骤 d 通 过 调用 socket、bind 和 1isten 重 新 启动 时 ， 由 于 它 
试图 捆绑 一 个 现 有 连接 〈 即 正 由 早先 派生 的 那个 子 进 程 处 理 着 的 连接 ) 上 的 端口 ， 从 而 bina 调 
用 会 失败 。 但 是 如 果 该 服务 器 在 socket 和 binq 两 个 调用 之 间 设 置 了 So_REUSEADDR 套 接 字 选项 ， 
那么 bina 将 成 功 。 所 有 TCP 服 务 器 都 应 该 指定 本 套 接 字 选 项 ， 以 允许 服务 器 在 这 种 情形 下 被 重 
新 启动 。 

这 种 情形 是 USENET 中 问 得 最 频繁 的 问题 之 一 。 


(2) SO_REUSEADDR 人 允许 在 同一 端口 上 启动 同一 服务 器 的 多 个 实例 ， 只 要 每 个 实例 捆绑 一 个 
不 同 的 本 地 IP 地 址 即 可 。 这 对 于 使 用 了 P 别 名 技术 (A.4 节 ) 托管 多 个 HTTP 服 务 器 的 网 点 (site) 
来 说 是 很 常见 的 。 举 例 来 说 ， 假 设 本 地 主机 的 主 了 下 地 址 为 198.69.10.2， 不 过 它 有 两 个 别名 ， 
198.69.10.128 和 198.69.10.129。 在 其 上 启动 三 个 HTTP 服 务 器 。 第 一 个 HTTP 服 务 器 以 本 地 通 配 IP 
地 址 INADDR_ANY 和 本 地 端口 号 80 (HTTP 的 众所周知 端口 ) 调用 bina。 第 二 个 HTTP 服 务 器 以 本 
地 IP 地 址 198.69.10.128 和 本 地 端口 号 80 调 用 binG。 这 次 调用 bina 将 失败 ， 除 非 在 调用 前 设置 了 
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SO_REUSERADDR 套 接 字 选项 。 第 三 个 HTTP 服 务 器 以 本 地 IP 地 址 198.69.10.129 和 本 地 端口 号 80 调 
用 bind。 这 次 调用 binq 成 功 的 先决 条 件 同样 是 预先 设置 So_REUSEADDR。 假 设 SoO_REUSEADDR 均 
已 设置 ， 从 而 三 个 服务 器 都 启动 了 ， 目 的 耳 地 址 为 198.69.10.128、 目 的 端口 号 为 80 的 外 来 TCP 
连接 请 求 将 被 递送 给 第 二 个 服务 器 ， 目 的 由 地 址 为 198.69.10.129、 上 月 的 端口 号 为 80 的 外 来 请 求 
将 被 递送 给 第 三 个 服务 器 , 目的 端口 号 为 80 的 所 有 其 他 TCP 连 接 请 求 将 都 递送 给 第 一 个 服务 器 。 
这 个 “默认 ”服务 器 处 理 目的 地 址 为 198.69.10.2 或 该 主机 已 配置 的 任何 其 他 IP 别 名 的 请 求 。 这 
里 通 配 地 址 的 意思 就 是 “没有 更 好 的 〈 即 更 为 明确 的 ) 匹配 的 任何 地 址 ” 注意， 允许 某 个 给 定 
服务 存在 多 个 服务 器 的 情形 在 服务 器 总 是 设置 so_REUSEADDR 套 接 字 选 项 时 是 自动 处 理 的 (我 们 
建议 设置 这 个 选项 )。 

对 于 TCP， 我 们 绝 不 可 能 启动 捆绑 相同 下 地 址 和 相同 端口 号 的 多 个 服务 器 :， 这 是 完全 重复 
#4898 (completely duplicate binding)。 也 就 是 说 ， 我 们 不 可 能 在 启动 绑 定 198.69.10.2 和 端口 80 
的 服务 器 后 ， 再 启动 同样 捆绑 198.69.10.2 和 端口 80 的 另 一 个 服务 器 ， 即 使 我 们 给 第 二 个 服务 器 
设置 了 so_REUSEADDR 套 接 字 选项 也 不 管用 。 

为 了 安全 起 见 ， 有 些 操作 系统 不 允许 对 已 经 绑 定 了 通 配 地 址 的 端口 再 捆绑 任何 “更 为 明确 
的 ”地 址 ， 也 就 是 说 不 论 是 否 预 先 设 置 So_REUSEADDR， 上 述 例子 中 的 系列 pind 调 用 都 会 失败 。 
在 这 样 的 系统 上 ， 执 行 通 配 地 址 捆绑 的 服务 器 进程 必须 最 后 一 个 启动 。 这 么 做 是 为 了 防止 把 恶 
意 的 服务 器 捆绑 到 某 个 系统 服务 正在 使 用 的 IP 地 址 和 端口 上 ， 造 成 合法 请 求 被 截取 。 这 一 点 对 
于 NFS 更 成 问题 ， 因 为 NFS 道 常 不 使 用 特权 端口 。 

(3) so_REUSEADDR 人 允许 单个 进程 捆绑 同一 端口 到 多 个 套 接 字 上 ， 只 要 每 次 捆绑 指定 不 同 的 
本 地 下 地 址 即 可 。 在 不 支持 IP_RECVDSTADDR 套 接 字 选 项 的 系统 上 ,这 对 于 要 求知 道 客户 请 求 的 
目的 也 地 址 的 UDP 服务 器 来 说 是 非常 普遍 的 。TCP 服 务 器 通常 不 使 用 这 种 方法 ,因为 TCP 服 务 器 
在 建立 连接 后 总 是 能 够 通过 调用 getsockname 来 确定 客户 请 求 的 目的 了 了 地 址 。 然 而 对 于 希望 在 
一 个 多 目的 主机 的 若干 个 《而 非 全 部 ) 本 地 地 址 上 服务 连接 的 TCP 服 务 器 进程 来 说 ， 仍 需 采 用 
这 种 方法 。 

(4) SO_REUSEADDR 人 允许 完全 重复 的 捆绑 : 当 一 个 IP 地 址 和 端口 已 绑 定 到 某 个 套 接 字 上 时 ， 
如 果 传 输 协议 支持 ， 同 样 的 IP 地 址 和 端口 还 可 以 捆绑 到 另 一 个 套 接 字 上 。 一 般 来 说 本 特性 仅 支 
持 UDP 套 接 字 。 

本 特性 用 于 多 播 时 , 允许 在 同一 个 主机 上 同时 运行 同一 个 应 用 程序 的 多 个 副本 。 当 一 个 UDP 
数据 报 需 由 这 些 重复 捆绑 套 接 字 中 的 一 个 接收 时 ， 所 用 规则 为 : 如 果 该 数据 报 的 目的 地 址 是 一 
个 广播 地 址 或 多 播 地 址 ， 那 就 给 每 个 匹配 的 套 接 字 递 送 一 个 该 数据 报 的 副本 ;但 是 如 果 该 数据 
报 的 目的 地 址 是 一 个 单 播 地址， 那么 它 只 递送 给 单个 套 接 字 。 在 单 播 数 据 报 情况 下 ， 如 果 有 多 
个 套 接 字 匹配 该 数据 报 ， 那 么 该 选择 由 哪个 套 接 字 接收 它 取决 于 实现 。TCPv2 第 777 一 779 页 详 
细 讨 论 了 本 特性 。 我 们 将 在 第 20 章 和 第 21 章 中 详细 讨论 广播 和 多 播 。 

习题 7.5 和 习题 7.6 给 出 了 本 套 接 字 选 项 的 几 个 例子 。 

4.4BSD 随 多 播 支持 的 添加 引入 了 so_REUSEPORT 这 个 套 接 字 选 项 。 它 并 未 在 SO_REUSEADDR 
上 重 载 所 需 多 播 语 义 〈 即 允许 完全 重复 的 捆绑 )， 而 是 给 SoO_REUSEPORT 引 入 了 以 下 语义 ， 

(1) 本 选项 允许 完全 重复 的 捆绑 ， 不 过 只 有 在 想 要 捆绑 同一 下 地 址 和 端口 的 每 个 套 接 字 都 指 
定 了 本 套 接 字 选 项 才 行 ; 

(2) 如 果 被 捆绑 的 人 * 地 址 是 一 个 多 播 地 址 ， 那 么 so_REUSEADDR 和 sO_REUSEPORT 被 认为 是 等 
效 的 《TCPv2 第 731 页 )。 

本 套 接 字 选 项 的 问题 在 于 并 非 所 有 系统 都 支持 它 。 在 那些 不 支持 本 选项 但 是 支持 多 播 的 系 
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5t E; 我 们 改 用 so_REUSEADDR 以 允许 合理 的 完全 重复 的 捆绑 (也 就 是 同一 时 刻 在 同一 个 主机 上 
可 运行 多 次 且 期 待 接收 广播 或 多 播 数 据 报 的 UDP 服 务 器 )。 

我 们 以 下 面 的 建议 来 总 结对 这 些 套 接 字 选 项 的 讨论 : 

(D 在 所 有 TCP 服 务 器 程序 中 ， 在 调用 bind 之 前 设置 SO_REUSEADDR 套 接 字 选项 ; 

(2) 当 编 写 一 个 可 在 同一 时 刻 在 同一 主机 上 运行 多 次 的 多 播 应 用 程序 时 ， 设 置 SO_REUSEADDR 
套 接 字 选项 ， 并 将 所 参加 多 播 组 的 地 址 作为 本 地 IP 地 址 捆绑 。 

TCPv2 第 22 章 对 这 两 个 套 接 字 选项 作 了 详细 的 讨论 。 

sO_REUSEADDR 有 一 个 潜在 的 安全 问题 。 举 例 来 说 ， 假 设 存在 一 个 绑 定 了 通 配 地 址 和 端口 
5555 的 套 接 字 ， 如 果 指 定 So_REUSEADDR， 我 们 就 可 以 把 相同 的 端口 捆绑 到 不 同 的 下 地 址 上 ， 璧 
如 说 就 是 所 在 主机 的 主 IP 地 址 。 此 后 目的 地 为 端口 5555 及 新 绑 定 IP 地 址 的 数据 报 将 被 递送 到 新 
的 套 接 字 ， 而 不 是 递送 到 绑 定 了 通 配 地 址 的 已 有 套 接 字 。 这 些 数据 报 可 以 是 TCP 的 SYN 分 节 、 
SCTP 的 INIT 块 或 UDP 数据 报 。( 习 题 11.9 展 示 了 UDP 的 这 个 特性 。) 对 于 大 多 数 众所周知 的 服务 
如 HTTP、FTP 和 Telnet 来 说 ， 这 不 成 问题 ， 因 为 这 些 服务 器 绑 定 的 是 保留 端口 。 这 种 情况 下 ， 
后 来 的 试图 捆绑 这 些 端口 更 为 明确 的 实例 〈 也 就 是 盗用 这 些 端口 ) 的 任何 进程 都 需要 超级 用 户 
特权 。 然 而 NFS 可 能 是 一 个 问题 ， 因 为 它 的 通常 端口 (20490 并 不 是 保留 端口 。 


套 接 字 API 的 一 个 底层 问题 是 : 套 接 字 对 的 设置 由 两 个 函数 调用 (bindfeconnect) 而 
不 是 一 个 来 完成 。[ Torek 1994 ] 为 解决 本 问题 提议 了 如 下 单个 函数 : 
int bind connect listen(int sockfd, 
const struct sockaddr *laddr, :nt laddrlen, 


const struct sockaddr *faddr, int faddrlen, 
int listen); 


其 中 jadadr 指 定 本 地 ]IP 地 址 和 本 地 端口 号 ，jaddr 指 定 外 地 IP 地 址 和 外 地 端口 号 ，iisten 指 定 一 个 
客户 (0) 或 一 个 服务 器 ( 非 0， 与 1isten 函 数 的 packlog 参 数 相同 )。 这 样 的 话 ，bind 将 是 一 
个 用 空 指 针 的 jaddr 和 为 0 的 1jaddrien 来 调用 该 函数 的 库 函 数 ，connecr 将 是 一 个 用 空 指针 的 
Laddr 和 为 0 的 1addrien 来 调用 该 函数 的 库 函 数 。 有 些 应 用 程序 (特别 是 TFTP ) 需要 同时 指定 会 
话 的 本 地 地 址 对 和 外 地 地 址 对 ， 它 们 可 以 直接 调用 bind_connect_listen。 有 了 这 样 的 一 
个 函数 就 不 需要 SO_REUSEADDR 了 ， 除 非 面 对 明确 要 求 允许 完全 重复 地 捆绑 相同 人 地址 和 端 
口 的 多 播 UDP 服 务 器 。 本 函数 的 另 一 个 好 处 是 : TCP 服 务 器 可 以 限定 自己 仅 为 来 自 特定 IP 地 
址 和 端口 的 连接 请 求 提供 服务 。 这 是 RFC 793 [Postel 1981c ] 规定 的 ， 但 是 对 于 现 有 的 套 接 
字 API 来 说 却 是 不 可 能 实现 的 。 


7.5.12 So TYPE 套 接 字 选项 


本 选项 返回 套 接 字 的 类 型 ， 返 回 的 整数 值 是 一 个 诸如 SocK_STREAM 或 SOCK_DGRRAM 之 类 的 
值 。 本 选项 通常 由 启动 时 继承 了 套 接 字 的 进程 使 用 。 


7.5.13 so USELOOPBACK 套 接 字 选项 


本 选项 仅 用 于 路 由 域 (AF_ROUTE) 的 套 接 字 。 对 于 这 些 套 接 字 ， 它 的 默认 设置 为 打开 《这 
是 唯一 一 个 默认 值 为 打开 而 不 是 关闭 的 so_xxx 二 元 套 接 字 选项 )。 当 本 选项 开启 时 ， 相 应 套 接 字 
将 接收 在 其 上 发 送 的 任何 数据 报 的 一 个 副本 。 


禁止 这 些 环 回 副 本 的 另 一 个 方法 是 调用 shutdown， 并 设置 它 的 第 二 个 套数 为 SHUT_RD。 
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1 Pos 


这 些 套 接 字 选项 由 IPv4 处 理 ， 它 们 的 级 别 ( 即 getsockopt 和 setsockopt 函 数 的 第 二 个 参 
BO) 为 TPPROTO_IP。 我 们 把 其 中 的 多 播 套 接 字 选项 推迟 到 21.6 节 再 讨论 。 


7.6.1 IP HDRINCL 套 接 字 选 项 


如 果 本 选项 是 给 一 个 原始 IP 套 接 字 《第 28 章 ) 设置 的 ， 那 么 我 们 必须 为 所 有 在 该 原始 套 接 
字 上 发 送 的 数据 报 构造 自己 的 趾 首 部。 一般 情况 下 ， 在 原始 套 接 字 上 发 送 的 数据 报 其 了 首部 是 
由 内 核 构造 的 ， 不 过 有 些 应 用 程序 (特别 是 路 由 跟踪 程序 traceroute) 需要 构造 自己 的 IP 首 部 
以 取代 IP 管 于 该 首部 中 的 某 些 字段 。 
当 本 选项 开启 时 ， 我 们 构造 完整 的 IP 首 部 ， 不 过 下 列 情况 例外 。 
e IP 总 是 计算 并 存储 PP 首部 校 验 和 。 
e 如 果 我 们 将 下 标识 字段 置 为 0%， 内 核 将 设置 该 字段 。 
e 如 果 源 IP 地 址 是 INADDR_ANY，IP 将 把 它 设置 为 外 出 接口 的 主 IP 地 址 。 
e 如 何 设置 IP 选 项 取决 于 实现 。 有 些 实现 取出 我 们 预先 使 用 IP_oPTIONS 套 接 字 选 项 设置 
的 任何 IP 选 项 ， 把 它们 添加 到 我 们 构造 的 首部 中 ， 而 其 他 实现 则 要 求 我 们 亲自 在 首部 指 
定 任何 期 望 的 IP 选 项 。 
e IP 首 部 中 有 些 字 段 必须 以 主机 字 节 序 填 写 ， 有 些 字段 必须 以 网 络 字 节 序 填写 ， 具体 取 决 
于 实现 。 这 使 得 利用 本 套 接 字 选 项 编排 原始 分 组 的 代码 不 像 期 待 的 那样 便于 移植 。 
我 们 将 在 29.7 节 给 出 本 选项 的 一 个 例子 。TCPv2 第 1056 一 1057 页 提供 了 本 选项 的 额外 详情 。 


7.6.2 IP OPTIONS 套 接 字 选 项 

本 选项 的 设置 允许 我 们 在 IPv4 首 部 中 设置 耻 选 项 。 这 要 求 我 们 熟悉 下 首部 中 卫 选 项 的 格式 。 
我 们 将 在 27.3 节 讲述 IPv4 源 路 径 时 讨论 这 个 选项 。 
7.6.3 IP RECVDSTADDR 套 接 字 选项 


本 套 接 字 选项 导致 所 收 到 UDP 数 据 报 的 目的 IP 地 址 由 recvmsg 函 数 作 为 辅助 数据 返回 。 我 
们 将 在 22.2 节 给 出 本 选项 的 一 个 例子 。 


7.6.4 IP_RECVIF 套 接 字 选项 


本 套 接 字 选 项 导致 所 收 到 UDP 数据 报 的 接收 接口 索引 由 recvmsg 函 数 作为 辅助 数据 返回 。 
我 们 将 在 22.2 节 给 出 本 选项 的 一 个 例子 。 


76.5 rP TOS 套 接 字 选 项 


本 套 接 字 选 项 允许 我 们 为 TCP、UDP 或 SCTP 套 接 字 设置 IP 首 部 中 的 服务 类 型 字段 (图 A-1， 
该 字段 包含 DSCP 和 ECN 子 字段 )。 如 果 我 们 给 本 选项 调用 getsockopt， 那 么 用 于 放 入 外 出 IP 数 
据 报 首部 的 DSCP 和 ECN 字 段 中 的 TOS 当 前 值 (默认 为 0) 将 返回 。 我 们 没有 办 法 从 接收 到 的 了 
数据 报 中 取得 该 值 。 

应 用 进程 可 以 把 DSCP 设 置 成 用 户 和 网 络 业务 供应 商 预先 协商 好 的 某 个 值 , 以 便 接受 预定 的 
服务 ， 例 如 对 耳 电 话 的 低 延 迟 服 务 ， 对 海量 数据 传送 的 高 吞吐 量 服务 。 由 RFC 2474 [Nichols et 
al. 1998] 定义 的 区 分 服务 〈diffserv) 体系 结构 只 是 有 限 向 后 兼容 历史 性 的 TOS 字 段 定义 (RFC 
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1349 [ Almquist 1992 ] ) 。 把 IP_Tos 设 置 成 <netinet/ip.h> 中 定义 的 某 个 常 值 〈 例 如 
IPTOS_LOWDELAY 和 IPTOS_THROUGHPUT) 的 应 用 程序 应 该 改 为 使 用 由 用 户 指定 的 某 个 DSCP 值 。 
区 分 服务 存留 的 TOS 值 只 有 优先 权 级 别 6(“internetwork control”， 网 间 控 制 ) 和 7 (“network 
control”， 网 内 控制 )， 这 意味 着 把 IP_TOS 设 置 成 TPTOS_PREC_NETCONTROL 或 IPTOS_PREC_ 
INTERNETCONTROL 的 应 用 程序 在 区 分 服务 网 络 中 可 以 继续 工作 。 

RFC 3168 [Ramakrishnan, Floyd, and Black 2001] 中 有 ECN 字 段 的 定义 。 应 用 进程 通常 应 
该 把 ECN 字 段 的 设置 留 给 内 核 ， 也 就 是 把 由 TP_Tos 设 置 的 值 中 的 低 两 位 指定 为 0。 


7.6.6 rP TTL 套 接 字 选 项 


我 们 可 以 使 用 本 选项 设置 或 获取 系统 用 在 从 某 个 给 定 套 接 字 发 送 的 单 播 分 组 上 的 默认 TTL 
值 (图 A-1)。( 多 播 TTL 值 使 用 IP_MULTICAST_TTL 套 接 字 选 项 设置 ， 见 21.6 节 。) 例如 4.4BSD 
对 TCP 和 UDP 和 套 接 字 使 用 的 默认 值 都 是 64 (这 由 IANA 的 “IP Option Numbers” 注 册 处 规定 )， 
对 原始 套 接 字 使 用 的 默认 值 则 是 2355。 跟 TOS 字 段 一 样 ， 调 用 getsockopt 返 回 的 是 系统 将 用 于 
外 出 数据 报 的 字段 的 默认 值 。 我 们 没有 办 法 从 接收 到 的 IP 数 据 报 中 取得 该 值 。 我 们 将 在 图 28-19 
所 示 的 traceroute 程 序 中 设置 本 套 接 字 选 项 。 


7.7 ICMPv6 套 接 字 选项 


这 个 唯一 的 套 接 字 选项 由 ICMPv6 处 理 ， 它 的 级 别 〈 即 getsockopt 和 setsockopt 函 数 的 第 
二 个 参数 ) 为 TPPROTO_ICMPV6。 


ICMP6 FILTER 套 接 字 选项 


本 选项 允许 我 们 获取 或 设置 一 个 icmp6_filter 结 构 , 该 结构 指出 256 个 可 能 的 ICMPv6 消 息 
类 型 中 哪些 将 经 由 某 个 原始 套 接 字 传 递 给 所 在 进程 。 我 们 将 在 28.4 节 再 讨论 本 选项 。 


78 IPVO RRAN 


这 些 套 接 字 选项 由 IPv6 处 理 ， 它 们 的 级 别 ( 即 getsockopt 和 setsockopt 函 数 的 第 二 个 参 
ŽO 为 TPPROTO_IPV6。 我 们 把 多 播 套 接 字 选 项 推迟 到 21.6 节 再 讨论 。 这 些 选项 中 有 许多 用 上 了 
recvmsg 函 数 的 辅助 数据 (ancillary data) 参数， 我 们 将 在 14.6 节 讨论 它 。 所 有 IPv6 套 接 字 选项 
都 定义 在 RFC 3493 [Gilligan et al. 2003 ] 和 RFC 3542 [Stevens et al. 2003] 中 。 


7.8.1 IPV6_CHECKSUM 套 接 字 选项 


本 选项 指定 用 户 数据 中 校 验 和 所 处 位 置 的 字 节 偏 移 。 如 果 该 值 为 非 负 ， 那 么 内 核 将 : GO 给 

所 有 外 出 分 组 计算 并 存储 校 验 和 ; Gi) 验证 外 来 分 组 的 校 验 和 ， 丢 弃 所 有 校 验 和 无 效 的 分 组 。 本 

选项 影响 除 ICMPv6 原 始 套 接 字 以 外 的 所 有 IPv6 原 始 套 接 字 。( 内 核 总 是 给 ICMPv6 原 始 套 接 字 

计算 并 存储 校 验 和 。) 如 果 指 定 本 选项 的 值 为 -1 (默认 值 )， 那 么 内 核 不 会 在 相应 的 原始 套 接 字 
上 计算 并 存储 外 出 分 组 的 校 验 和 ， 也 不 会 验证 外 来 分 组 的 校 验 和 。 

所 有 使 用 IPv6 的 协议 在 它们 各 自 的 协议 首部 都 应 该 有 一 个 校 验 和 。 这 些 校 验 和 包含 一 个 


伪 首部 ( pseudoheader ) (RFC 2460 [ Deering and Hinden 1998 ] )， 而 伪 首 部 包括 作为 校 验 和 一 
部 分 的 源 IPv6 地 址 (这 一 点 不 同 于 通常 使 用 IPv4 原 始 套 接 字 来 实现 的 所 有 其 他 协议 )。 这 样 不 
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必 强 求 使 用 原始 套 接 字 的 应 用 进程 进行 源 地 址 选择 ， 而 是 由 内 核 这 么 做 ， 并 由 内 核 计算 并 存 
储 包 含 标准 IPv6 伪 首部 的 检验 和 


7.8.2 IPV6_DONTFRAG 套 接 字 选项 


开启 本 选项 将 禁止 为 UDP 套 接 字 或 原始 套 接 字 自动 插入 分 片 首部 ， 外 出 分 组 中 大 小 超过 发 
送 接口 MTU 的 那些 分 组 将 被 丢弃 。 发 送 分 组 的 系统 调用 不 会 为 此 返回 错误 ， 因 为 已 发 送出 去 仍 
在 途中 的 分 组 也 可 能 因为 超过 路 径 MTU 而 被 丢弃 。 应 用 进程 应 该 开启 ITPV6_RECVPATHMTU 选 项 
以 获悉 路 径 MTU 的 变动 。 


7.8.8 IPV6_NEXTHOP 套 接 字 选项 


本 选项 将 外 出 数据 报 的 下 一 跳 地 址 指定 为 一 个 套 接 字 地 址 结构 。 这 是 一 个 特权 操作 。 我 们 
将 在 22.8 节 详细 讨论 这 个 特性 。 


7.8.4 IPV6 PATHMTU 套 接 字 选项 


本 选项 不 能 设置 ， 只 能 获取 。 获 取 本 选项 时 ， 返 回 值 为 由 路 径 MTU 发 现 功 能 确定 的 当前 
MTU (¢ 322.957). 


7.8.5 IPV6 RECVDSTOPTS 套 接 字 选项 


开启 本 选项 表明 ， 任 何 接收 到 的 IPv6 目 的 地 选项 都 将 由 recvmsg 作 为 辅助 数据 返回 。 本 选 
项 默认 为 关闭 。 我 们 将 在 27.5 节 讲述 用 来 创建 和 处 理 这 些 目的 地 选项 的 函数 。 


7.8.6 IPV6 RECVHOPLIMIT 套 接 字 选项 


开启 本 选项 表明 ， 任 何 接收 到 的 跳 限 字段 都 将 由 recvmsg 作 为 辅助 数据 返回 。 本 选项 默认 
为 关闭 。 我 们 将 在 22.8 节 讲述 本 选项 。 
对 IPv4 而 言 ， 没 有 办 法 可 以 获取 接收 到 的 TTL 字 段 。 
7.8.7 IPV6 RECVHOPOPTS 套 接 字 选项 


开启 本 选项 表明 ， 任 何 接收 到 的 IPv6 步 跳 选 项 都 将 由 recvmsg 作 为 辅助 数据 返回 。 本 选项 
默认 为 关闭 。 我 们 将 在 27.5 节 讲述 用 于 创建 和 处 理 这 些 步 跳 选 项 的 函数 。 


7.8.8 IPV6_RECVPATHMTU 套 接 字 选 项 


开启 本 选项 表明 ， 某 条 路 径 的 路 径 MTU 在 发 生变 化 时 将 由 recvmsg 作 为 辅助 数据 返回 CK 
伴随 任何 数据 )。 我 们 将 在 22.9 节 讲述 本 选项 。 


7.8.9 IPV6 RECVPKTINFO 套 接 字 选 项 


开启 本 选项 表明 ， 接 收 到 的 IPv6 数 据 报 的 以 下 两 条 信息 将 由 recvmsg 作 为 辅助 数据 返回 : 
目的 IPv6 地 址 和 到 达 接 口 索引 。 我 们 将 在 22.8 节 讲述 本 选项 。 


7.8.10 rPV6 RECVRTHDR 套 接 字 选项 


开局 本 选项 表明 ， 接 收 到 的 IPv6 路 由 首部 将 由 recvmsg 作 为 辅助 数据 返回 。 本 选项 默认 为 
关闭 。 我 们 将 在 27.6 节 讲述 用 于 创建 和 处 理 IPv6 路 由 首部 的 函数 。 
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7.8.41 rPv6 RECVTCLASS 套 接 字 选项 


开启 本 选项 表明 ， 接 收 到 的 流通 类 别 〈 包 含 DSCP 和 ECN 字 段 ) 将 由 recvmsg 作 为 辅助 数据 
返回 。 本 选项 默认 为 关闭 。 我 们 将 在 22.8 节 讲述 本 选项 。 


7.8.12 rPV6 UNICAST HOPS 套 接 字 选项 


本 IPv6 选 项 类 似 于 IPv4 的 TIP_TTL 套 接 字 选项 。 设 置 本 选项 会 给 在 相应 套 接 字 上 发 送 的 外 出 
数据 报 指定 默认 跳 限 ， 获 取 本 选项 会 返回 内 核 用 于 相应 套 接 字 的 跳 限 值 。 来 自 接收 到 的 IPv6 数 
据 报 中 跳 限 字段 的 实际 值 通 过 使 用 IfPV6_RECVHOPLIMIT 套 接 字 选项 取得 。 我 们 将 在 图 28-19 所 示 
的 traceroute 程 序 中 设置 本 套 接 字 选 项 。 


7.8.13 rPv6 USE MIN MTU 套 接 字 选项 


把 本 选项 设置 为 1 表明， 路 径 MTU 发 现 功 能 不 必 执 行 ， 为 避免 分 片 ， 分 组 就 使 用 IPv6 的 最 
小 MTU 发 送 。 把 本 选项 设置 为 0 表明 ， 路 径 MTU 发 现 功能 对 于 所 有 目的 地 都 得 执行 。 把 本 选项 
设置 为 -1 表明 ， 路 径 MTU 发 现 功能 仅 对 单 播 目的 地 执行 ， 对 于 多 播 目 的 地 就 使 用 最 小 MTU。 本 
选项 默认 值 为 -1。 我 们 将 在 22.9 节 讲述 本 选项 。 


7.8.14 iPV6 V60NLY 套 接 字 选项 


在 一 个 AF_INET6 套 接 字 上 开启 本 选项 将 限制 它 只 执行 IPv6 通 信 。 本 选项 默认 为 关闭 ， 不 过 
有 些 系统 存在 默认 开启 本 选项 的 手段 。 我 们 将 在 12.2 节 和 12.3 节 讲述 使 用 AF_INET6 套 接 字 的 
IPv4 和 IPv6 通 信 。 


7.8.45 Ipvé_xxx 套 接 字 选项 


大 多 数 用 于 修改 协议 首部 的 IPv6 选 项 假设 : 就 UDP 套 接 字 而 言 , 信息 由 recvmsg 和 sengdmsg 
作为 辅助 数据 在 内 核 和 应 用 进程 之 间 传 递 ， 就 TCP 套 接 字 而 言 ， 同 样 的 信息 改 用 getsockopt 和 
setsockopt 获 取 和 设置 。 套 接 字 选 项 和 辅助 数据 的 类 型 一 致 ， 并 且 访 问 套 接 字 选 项 的 缓冲 区 所 
含 的 信息 和 辅助 数据 中 存放 的 信息 也 一 致 。 我 们 将 在 27.7 节 讲述 这 一 点 。 
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TCP 有 两 个 套 接 字 选 项 ， 它 们 的 级 别 〈 即 getsockopt 和 setsockopt 函 数 的 第 二 个 参数 ) 
为 ITPPROTO_TCP。 


7.9.1 TCP MAXSEG 套 接 字 选项 


本 选项 允许 我 们 获取 或 设置 TCP 连 接 的 最 大 分 节 大 小 (MSS)。 返 回 值 是 我 们 的 TCP 可 以 发 

送 给 对 端的 最 大 数据 量 ， 它 通常 是 由 对 端 使 用 SYN 分 节 通 告 的 MSS， 除 非 我 们 的 TCP 选 择 使 用 

-个 比 对 端 通告 的 MSS 小 些 的 值 。 如 果 该 值 在 相应 套 接 字 的 连接 建立 之 前 取得 ， 那 么 返回 值 是 

未 从 对 端 收 到 MSS 选 项 的 情况 下 所 用 的 默认 值 。 还 得 注意 的 是 ， 如 果 用 上 譬如 说 时 间 戳 选项 的 

话 ， 那 么 实际 用 于 连接 中 的 最 大 分 节 大 小 可 能 小 于 本 套 接 字 选项 的 返回 值 ， 因 为 时 间 戳 选项 在 
每 个 分 节 中 要 占用 12 字 节 的 TCP 选 项 容量 。 

如 果 TCP 支 持 路 径 MTU 发 现 功 能 ， 那 么 它 将 发 送 的 每 个 分 节 的 最 大 数据 量 还 可 能 在 连接 存 
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活期 内 改变 。 如 果 到 对 端的 路 径 发 生变 动 ， 该 值 就 会 有 所 调整 。 

我 们 在 图 7-1 中 指出 ， 本 套 接 字 选 项 也 可 以 由 应 用 进程 设置 。 这 一 点 并 非 在 所 有 系统 上 都 可 
行 ,毕竟 本 选项 原本 是 个 只 读 选 项 .4.4BSD 限 制 应 用 进程 只 能 减少 其 值 , 而 不 能 增加 其 值 (TCPv2 
第 1023 页 )。 既 然 本 选项 控制 TCP 可 以 发 送 的 每 个 分 节 的 数据 量 ， 禁 止 应 用 进程 增加 其 值 是 明智 
的 。 一 旦 连接 建立 ， 本 选项 的 值 就 是 对 端 通告 的 MSS 选 项 值 ，TCP 不 能 发 送 超 过 该 值 的 分 节 。 
当然 ，TCP 总 是 可 以 发 送 数据 量 少 于 对 端 通告 的 MSS 值 的 分 节 。 


7.9.2 TCP NODELAY 套 接 字 选 项 


开启 本 选项 将 禁止 TCP 的 Nagle 算 法 〈TCPv1l 的 19.4 节 和 TCPv2 第 858 一 859 页 )。 默 认 情 况 下 
该 算法 是 启动 的 。 

Nagle 算 法 的 目的 在 于 减少 广域网 CWAN) 上 小 分 组 的 数目 。 该 算法 指出 : 如 果 某 个 给 定 
连接 上 有 待 确认 数据 (outstanding data)， 那 么 原本 应 该 作为 用 户 写 操作 之 响应 的 在 该 连接 上 立 
即 发 送 相应 小 分 组 的 行为 就 不 会 发 生 ， 直 到 现 有 数据 被 确认 为 止 .? 这 里 “小 ”分 组 的 定义 就 是 
小 于 MSS 的 任何 分 组 。TCP 总 是 尽 可 能 地 发 送 最 大 大 小 的 分 组 ，Nagle 算 法 的 目的 在 于 防止 一 个 
连接 在 任何 时 刻 有 多 个 小 分 组 待 确认 。 

Rlogin 和 Telnet 的 客户 端 是 两 个 常见 的 小 分 组 产生 进程 ,它们 通常 把 每 次 击 键 作为 单个 分 组 
发 送 。 在 快速 的 局 域 网 (LAN) 上 ， 我 们 通常 不 会 注意 到 Nagle 算 法 对 这 些 客户 进程 的 影响 ， 
为 小 分 组 所 需 的 确认 时 间 一 般 也 就 几 毫 秒 ， 远 远 小 于 我 们 相继 键入 两 个 字符 的 间隔 时 间 。 然 而 
在 广域网 上 ， 小 分 组 所 需 的 确认 时 间 可 能 长 达 一 秒 ， 我 们 就 会 注意 到 字符 回 显 的 延迟 ， 而 且 该 
延迟 往往 被 Nagle 算 法 进一步 放大 。 

考虑 下 面 的 例子 ;我 们 在 Riogin 或 Telnet 的 客户 端 键入 6 个 字符 的 串 “hellol”， 每 个 字符 间 
间隔 正好 是 250 ms。 到 服务 器 端的 RTT 为 600 ms， 而 且 服务 器 立即 发 回 每 个 字符 的 回 显 。 我 们 假 
设 对 客户 端 字符 的 ACK 是 和 字符 回 显 一 同 发 回 给 客户 端的 ， 并 且 忽 略 客户 端 发 送 的 对 服务 器 端 
回 显 的 ACK。( 我 们 稍 后 将 讨论 延 洁 的 ACK。) 假设 Nagle 算 法 是 禁止 的 , 我 们 得 到 图 7-14 所 示 的 
12 个 分 组 。 

图 中 每 个 字符 在 各 自 的 分 组 中 发 送 : 数据 分 节 从 左 到 右 ，ACK 从 右 到 左 。 

如 果 Nagle 算 法 是 开启 的 (这 是 默认 情形 )， 我 们 就 得 到 图 7-15 所 示 的 8 个 分 组 。 第 一 个 字符 
独自 作为 一 个 分 组 发 送 ， 然 而 下 两 个 字符 没有 立即 发 送 ， 因 为 该 连接 上 有 一 个 小 分 组 待 确认 。 
在 时 刻 600 处 收 到 对 第 一 个 分 组 的 ACK 后 (该 ACK 由 第 一 个 字符 的 回 显 撒 带 )， 这 两 个 字符 才 被 
发 送 。 在 该 分 组 在 时 刻 1200 处 被 确认 之 前 ， 没 有 其 他 小 分 组 被 发 送 。 

Nagle 算 法 常常 与 男 一 个 TCP 算 法 联合 使 用 : ACKER A (delayed ACK algorithm). i5. 
法 使 得 TCP 在 接收 到 数据 后 不 立即 发 送 ACK， 而 是 等 待 一 小 段 时 间 ( 典 型 值 为 50 一 200ms)， 然 
后 才 发 送 ACK。TCP 期 竺 在 这 一 小 段 时 间 内 自身 有 数据 发 送 回 对 端 ， 被 延 滞 的 ACK 就 可 以 由 这 
些 数据 撒 带 ， 从 而 省 掉 一 个 TCP 分 节 。 这 种 情形 对 于 Rlogin 和 Telnet 客 户 来 说 通常 可 行 ， 因 为 它 
们 的 服务 器 一 般 都 回 显 客 户 发 送 来 的 每 个 字符 ， 这 样 对 客户 端 字符 的 ACK 完 全 可 以 在 服务 器 对 
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© 待 确认 数据 (outstanding data) 直译 为 未 决 数据 , 也 就 是 我 们 的 TCP 已 发 送 但 还 在 等 待 对 端 确 认 的 数据 , 参见 RFC 
793 图 4， 就 是 其 中 标 为 2 的 部 分 。 从 涵义 上 讲 ， 采 用 未 决 一 词 更 确切 些 ， 因 为 其 中 有 “ 悬 ” 而 “未 决 ”两 层 意 思 ， 
“ 悬 ”表示 数据 已 发 送 ,“ 未 决 ”表示 数据 尚未 得 到 确认 。 采 用 待 确认 一 词 未 能 体现 出 “ 悬 ”的 含义 ， 也 就 是 说 
在 发 送 队 列 中 到 底 有 没有 发 送 的 数据 也 是 有 待 确认 的 。 鉴 于 采用 未 决 说 法 略 显 突 光 ， 本 书 没有 采用 ; 待 确 认 说 
法 的 含义 读者 自明 。 一 一 译 者 注 
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FA7-14 ”禁止 Nagle 算 法 时 由 服务 器 回 显 的 六 个 字符 ”图 7-15 ”开启 Nagle 算 法 时 由 服务 器 回 显 的 六 个 字符 


然而 对 于 其 服务 器 不 在 相反 方向 产生 数据 以 便携 带 ACK 的 客户 来 说 , ACK 延 沾 算 法 存在 问 
题 。 这 些 客户 可 能 觉察 到 明显 的 延迟 ， 因 为 客户 TCP 要 等 到 服务 器 的 ACK 延 滞 定 时 器 超时 才 继 
续 给 服务 器 发 送 数 据 。 这 些 客户 需要 一 种 禁止 Nagle 算 法 的 方法 ，TCP_NODELAY 选 项 就 能 起 到 这 
个 作用 。 

另 一 类 不 适合 使 用 Nagle 算 法 和 TCP 的 ACK 延 滞 算 法 的 客户 是 以 若干 小 片 数 据 向 服务 器 发 
送 单个 逻辑 请 求 的 客户 。 举 例 来 说 , 假设 某 个 客户 向 它 的 服务 器 发 送 一 个 400 字 节 的 请 求 ， 该 请 
求 由 一 个 4 字 节 的 请 求 类 型 和 后 跟 的 396 字 节 的 请 求 数据 构成 。 如 果 客 户 先 执行 一 个 4 字 节 的 
write 调 用 ， 再 执行 一 个 396 字 节 的 write 调 用 ， 那 么 第 二 个 写 操作 的 数据 将 一 直 等 到 服务 器 的 
TCP 确 认 了 第 一 个 写 操作 的 4 字 节 数据 后 才 由 客户 的 TCP 发 送出 去 。 而 且 ， 由 于 服务 器 应 用 进程 
难以 在 收 到 其 余 396 字 节 前 对 先 收 到 的 4 字 节 数据 进行 操作 , 服务 器 的 TCP 将 拖延 该 4 字 节 数据 的 
ACK〔( 也 就 是 说 ， 暂 时 不 会 有 从 服务 器 到 客户 的 任何 数据 可 以 撒 带 这 个 ACK)。 有 三 种 办 法 修 
正 这 类 客户 程序 。 

(1) 使 用 writev(14.4 节 ) 而 不 是 两 次 调用 write。 对 于 本 例子 ， 单 个 writev 调 用 最 终 导致 
调用 TCP 输 出 功能 一 次 而 不 是 两 次 ， 其 结果 是 只 产生 一 个 TCP 分 节 。 这 是 首选 的 办 法 。 

(2) 把 前 4 字 节 的 数据 和 后 396 字 节 的 数据 复制 到 单个 缓冲 区 中 ， 然 后 对 该 缓冲 区 调用 一 次 
writee 

(3) 设置 TcP_NODELaAY 套 接 字 选项 ， 继 续 调 用 write 两 次 。 这 是 最 不 可 取 的 办 法 ， 而 且 有 损 
于 网 络 ， 通 常 不 应 该 考虑 。 

习题 7.8 和 习题 7.9 将 继续 讨论 本 例子 。 


7.10 SCTP 套 接 字 选 项 


数目 相对 较 多 的 SCTP 套 接 字 选 项 (编写 本 书 时 为 17 个 反映 出 SCTP 为 应 用 程序 开发 人 员 
提供 了 较 细 粒度 的 控制 能 力 。 它 们 的 级 别 ( 即 getsockopt 和 setsockopt 函 数 的 第 二 个 参数 ) 
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若干 用 于 获取 SCTP 相 关 信息 的 选项 要 求 把 一 些 数据 〈 例 如 关联 ID 和 /或 对 端 地 址 ) 传递 进 
内 核 。 尽管 get sockopt 的 一 些 实现 支持 进程 与 内 核 之 间 的 双向 数据 传递 , 然而 并 非 所 有 实现 都 
能 做 到 。SCTP 的 API 为 此 定义 了 一 个 sctp_opt_info 函 数 (9.11 节 ) 以 隐藏 这 个 差异 。 在 
getsockopt 支 持 双向 数据 传递 的 系统 上 ，sctp_opt_info 只 是 getsockopt 的 一 个 简单 外 包 。 
在 其 他 系统 上 ， 它 执行 所 需 的 操作 ， 其 中 可 能 用 到 定制 的 ioct1 或 某 个 新 的 系统 调用 。 当 获取 
这 些 选 项 时 , 我 们 建议 总 是 使 用 sctp_opt_info 以 便 移植 。 图 7-2 中 这 些 选项 被 标 上 了 七 首 记 号 
(和 )， 它 们 包 插 SsScTP_ASSOCINFO、SCTP_GET_PEER_ADDR_INFO、SCTP_PEER_ADDR_PARAMS、 
SCTP, PRIMARY ADDR. SCTP_RTOINFO 和 SCTP_STATUS。 


7.10.1 scTP ADAPTION LAYER 套 接 字 选项 


在 关联 初始 化 期 间 ， 任 何 一 个 端点 都 可 能 指定 一 个 适 配 层 指示 (adaption layer indication). 
这 个 指示 是 一 个 32 位 无 符号 整数 ， 可 由 两 端的 应 用 进程 用 来 协调 任何 本 地 应 用 适 配 层 。 本 选项 
允许 调用 者 获取 或 设置 将 由 本 端 提供 给 对 端的 适 配 层 指示 。 

获取 本 选项 的 值 时 ， 调 用 者 得 到 的 是 本 地 套 接 字 将 提供 给 所 有 未 来 对 端的 值 。 要 获取 对 端 
的 适 配 层 指 示 ， 应 用 进程 必须 预订 适 配 层 事件 。 


7.10.2 scTP ASSOCINFO 套 接 字 选项 


本 套 接 字 选 项 可 用 于 以 下 三 个 目的 : a) 获取 关于 某 个 现 有 关联 的 信息 ，(b) 改变 某 个 已 
有 关联 的 参数 ，(c) 为 未 来 的 关联 设置 默认 信息 。 在 获取 关于 某 个 现 有 关联 的 信息 时 ， 应 该 使 
用 sctp_opt_info 函 数 而 不 是 getsockopt 函 数 。 作 为 本 选项 的 输入 的 是 sctp_assocparams 结 
构 。 


struct sctp assocparams { 
Sctp assoc t sasoc assoc id; 
u intl6 t sasoc asocmaxrxt; 
u intl6 t sasoc number peer destinations; 
u int32 t sasoc peer rwnd; 
u int32, t sasoc local rwnd; 
u int32 t sasoc cookie life; 

i 

这 些 字 段 的 含义 如 下 所 述 。 

e sasoc_assoc_idq 存 放 待 访问 关联 的 标识 〈 即 关联 ID)。 如 果 在 调用 setsockopt 时 置 0 
本 字段 ， 那 么 sasoc_asocmaxrxt 和 sasoc_cookie_1ife 字 段 代 表 将 作为 默认 信息 设置 
在 相应 套 接 字 上 的 值 。 如 果 在 调用 getsockopt 时 提供 关联 ID， 返 回 的 就 是 特定 于 该 关 
联 的 信息 ， 和 否则 如 果 置 0 本 字段 ， 返 回 的 就 是 默认 的 端点 设置 信息 。 

e sasoc_asocmaxrxt 存 放 的 是 某 个 关联 在 已 发 送 数据 没有 得 到 确认 的 情况 下 尝试 重 传 的 
最 大 次 数 。 达 到 这 个 次 数 后 SCTP 放 弃 重 传 ， 报 告 用 户 对 端 不 可 用 ， 然 后 关闭 该 关联 。 

e sasoc_number_peer_destinations 存 放 对 端 目的 地 址 数 。 它 不 能 设置 ， 只 能 获取 。 

e sasoc_peer_rwnd 存 放 对 端的 当前 接收 窗口 。 该 值 表 示 还 能 发 送 给 对 端的 数据 字 节 总 
数 。 本 字段 是 动态 的 ， 本 地 端点 发 送 数 据 时 其 值 减 小 ， 外 地 应 用 进程 读 取 已 经 收 到 的 数 
据 时 其 值 增 大 。 它 不 能 设置 ， 只 能 获取 。 

e sasoc_local_rwnG 存 放 本 地 SCTP 协 议 栈 当前 通告 对 端的 接收 窗口 。 本 字段 也 是 动态 
的 ， 并 受 so_sNDBUF 套 接 字 选 项 影响 。 它 不 能 设置 ， 只 能 获取 。 

e sasoc_cookie_1ife 存 放送 给 对 端的 状态 cookie 以 毫秒 为 单位 的 有 效 期 。 为 了 防护 重 放 
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(replay) 攻击 ， 每 个 随 INIT-ACK 块 送 给 对 端的 状态 cookie 都 关联 有 一 个 生命 期 。 原 本 为 
60 000 毫 秒 的 生命 期 默认 值 可 以 通过 置 sasoc_assoc_id 为 0 并 设置 本 选项 加 以 修改 。 
我 们 将 在 23.11 节 给 出 为 提升 性 能 而 调整 sasoc_asocmaxrxt 字 段 值 的 建议 。sasoc.. 
cookie_1ife 字 上段 值 可 以 降低 以 便 更 好 地 防护 cookie 重 放 攻 击 ， 不 过 这 么 一 来 ， 针 对 网 络 延 迟 
的 健壮 性 在 关联 发 起 期 间 有 所 降低 。 其 他 字段 可 以 用 于 调试 程序 。 


7.10.3 ScTP AUTOCLOSE 套 接 字 选项 


本 选项 允许 我 们 获取 或 设置 一 个 SCTP 端 点 的 自动 关闭 时 间 。 自 动 关闭 时 间 是 一 个 SCTP 关 
联 在 空闲 时 保持 打开 的 秒 数 。SCTP 协 议 栈 把 空闲 定义 为 一 个 关联 的 两 个 端点 都 没有 在 发 送 或 接 
收 用 户 数据 的 状态 。 自 动 关闭 功能 默认 是 禁止 的 。 

自动 关闭 选项 意 在 用 于 一 到 多 式 SCTP 接 口 (第 9 章 )。 当 设置 本 选项 时 ,传递 给 它 的 整数 值 
为 某 个 空闲 关联 被 自动 关闭 前 的 持续 秒 数 , 值 为 0 表示 禁止 自动 关闭 。 本 选项 仅仅 影响 由 相应 本 
地 端点 将 来 创建 的 关联 ， 已 有 关联 保持 它们 的 现行 设置 不 变 。 

自动 关闭 功能 可 由 服务 器 用 来 强制 关闭 空闲 的 关联 ， 服 务 器 无 需 为 此 维护 额外 的 状态 。 使 
用 本 特性 的 服务 器 应 该 仔细 估算 它 的 所 有 关联 预期 的 最 长 空闲 时 间 。 自 动 关闭 时 间 设 置 过 短 会 
导致 关联 的 过 早 关闭 。 


7.10.4 scCTP DEFAULT SEND PARAM 套 接 字 选项 


SCTP 有 许多 可 选 的 发 送 参 数 ， 它 们 通常 作为 辅助 数据 传递 ， 或 者 由 sctp_sendmsg 函 数 使 
Hi (sctp_sendmsg 通 常 作为 库 函数 实现 ， 它 替 用 户 传递 辅助 数据 )。 和 希望 发 送 大 量 消 息 且 所 有 
消息 具有 相同 发 送 参 数 的 应 用 进程 可 以 使 用 本 选项 设置 默认 参数 ， 从 而 避免 使 用 辅助 数据 或 执 
行 sctp_sendmsg 调 用 。 本 选项 接受 sctp_sndarcvinfo 结 构 作 为 输入 。 


struct sctp sndrcvinfo { 
u inti6 t sinfo stream; 
u intl6 t sinfo, ssn; 
u int16 t sinfo flags; 
u int32 t sinfo, ppid; 
u int32, t sinfo context; 
u int32 t sinfo timetolive; 
u_int32_t sinfo tsn; 
u int32 t sinfo cumtsn; 
Sctp assoc t sinfo assoc id; 


sinfo_stream 指 定 新 的 默认 流 ， 所 有 外 出 消息 将 被 发 送 到 该 流 中 。 
sinfo_ssn 在 设置 默认 发 送 参 数 时 被 忽略 。 当 使 用 recvmsg 或 sctp_recvmsg 函 数 接收 消 
息 时 ,本 字段 将 存放 由 对 端 置 于 SCTP DATA 块 的 流 序号 (stream sequence number, SSN) 
字段 中 的 值 。 

e sinfo_flags 指 定 新 的 默认 标志 ， 它们 将 应 用 于 所 有 消息 发 送 。 图 7-16 列 出 了 这 些 标志 
值 。 

e sinfo_ppid 指 定 将 置 于 所 有 外 出 消息 中 的 SCTP 净 荷 协议 标识 (payload protocol identifier) 
字段 的 默认 值 。 

e sinfo_context 指 定 新 的 默认 上 下 文 。 本 字段 是 个 本 地 标志 ,用 于 检索 无 法 发 送 到 对 端 
的 消息 。 


} 
这 些 字段 的 含义 如 下 所 述 。 
e. 


224 
i 
225 
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MSG ABORT 启动 中 止 性 的 关联 终止 过 程 。 


MSG_ADDR_OVER | 指定 SCTP 不 顾 主 目的 地 址 而 改 用 给 定 的 地 址 。 

MSG_EOF 发 送 完 本 消息 后 启动 雅致 的 关联 终止 过 程 。 

MSG PR BUFFER | 开启 部 分 可 靠 性 特性 〈 如 果 可 用 的 话 ) 基于 缓冲 区 的 层面 (profile )。 
MSG PR SCTP 针对 本 消息 开启 部 分 可 靠 性 特性 〈 如 果 可 用 的 话 )。 

MSG_UNORDERED | 指定 本 消息 使 用 无 序 的 消息 传递 服务 。 


图 7-16 sinfo_flags 字 段 允许 的 SCTP 标 志 值 


e sinfo_timetolive 指 定 新 的 默认 生命 期 ， 它 将 应 用 于 所 有 消息 发 送 。SCTP 协 议 栈 使 用 
本 字段 判定 何 时 丢弃 (尚未 执行 首次 传送 就 ) 因 过 度 拖延 而 失效 的 外 出 消息 。 如 果 同 一 
关联 的 两 个 端点 都 支持 部 分 可 靠 性 (partial reliability) 选项 ， 那 么 本 生命 期 也 用 于 指定 
完成 首次 传送 后 的 消息 的 继续 有 效 期 。 
e sinfo_tsn 在 设置 默认 发 送 参数 时 被 忽略 。 当 使 用 recvmsg 或 sccp_recvmsg 函 数 接收 消 
息 时 ， 本 字段 将 存放 由 对 端 置 于 SCTP DATA 块 的 传输 序号 (transport sequence number, 
TSN) 字段 中 的 值 。 
e sinfo_cumtsn 在 设置 默认 发 送 参 数 时 被 忽略 。 当 使 用 recvmsg 或 sctp_recvmsg 函 数 接 
收 消息 时 ， 本 字段 将 存放 本 地 SCTP 协 议 栈 已 与 对 端 挂钩 的 当前 累积 TSN。 
e sinfo_assoc_id 指 定 请 求 者 希望 对 其 设置 默认 参数 的 关联 标识 。 对 于 一 到 一 式 套 接 字 ， 
本 字段 被 忽略 。 
注意 ， 所 有 默认 设置 只 影响 没有 指定 sctp_sndrcvinfo 结 构 的 消息 发 送 。 指 定 了 该 结构 的 
消息 发 送 ( 例 如 带 辅助 数据 的 sctp_sendmsg 或 sendmsg 函 数 调 用 ) 将 覆 写 默认 设置 。 除 了 进行 
默认 设置 ， 通 过 使 用 sctp_opt_info 沙 数 ， 本 选项 也 可 用 于 获取 当前 的 默认 设置 。 


7.10.5 scTP DISABLE FRAGMENTS 套 接 字 选项 


SCTP 通 常 把 太 大 而 不 适合 置 于 单个 SCTP 分 组 中 的 用 户 消 息 分 割 成 多 个 DATA 块 。 开启 本 选 
项 将 在 发 送 端 禁止 这 种 行为 。 被 禁止 后 ，SCTP 将 为 此 向 用 户 返 送 EMsGSIZE 错 误 ， 并 且 不 发 送 
用 户 消息 。SCTP 的 默认 行为 与 本 选项 被 禁止 等 效 ， 也 就 是 说 ，SCTP 通 常会 对 用 户 消 息 执行 分 
片 。 

那些 希望 自己 控制 消息 大 小 的 应 用 进程 可 以 使 用 本 选项 ， 以 便 确 保 每 个 用 户 应 用 消息 都 适 
合 置 于 单个 IP 分 组 中 。 开 启 了 本 选项 的 应 用 进程 必须 准备 好 处 理 出 错 情况 〈 即 消息 过 大 )， 它 们 
既 可 以 提供 应 用 层 的 消息 分 片 机 制 ， 也 可 以 改 用 较 小 的 消息 。 


7.10.6 scTP EVENTS 套 接 字 选项 


本 套 接 字 选 项 允许 调用 者 获取 、 开 启 或 禁止 各 种 SCTP 通 知 。SCTP 通 知 是 由 SCTP 协 议 栈 发 
送 给 应 用 进程 的 消息 。 这 种 消息 就 像 普 通 消 息 那么 读 取 ， 只 需 把 recvmsg 函 数 的 msghdar 结 构 参 
数 中 的 msg_flags 字 段 设置 为 MSG_NOTIFICATION。 不 准备 使 用 recvmsg 或 sctp_recvmsg 函 数 
的 应 用 进程 不 应 该 开启 事件 通知 功能 。 使 用 本 选项 传递 一 个 sctp_event_subscribe 结 构 就 可 
以 预订 8 类 事件 的 通知 。 该 结构 的 格式 如 下 ， 其 中 各 个 字段 的 值 为 0 表示 不 预订 ， 为 1 表示 预订 。 


struct sctp event subscribe ( 
u int8 t sctp data io event; 
u .int8 t sctp association event; 
u int8 t sctp. address event; 
u .int8 t sctp send failure event; 
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u int8 t sctp peer error event; 
u int8 t sctp shutdown event; 
u int8 t sctp partial delivery event; 
u int8 t sctp adaption layer. event; 
H . 


图 7-17 汇 总 了 这 些 事件 。 我 们 将 在 9.14 节 继续 讨论 事件 通知 。 


Sctp data io event 开启 /禁止 每 次 recvmsg 调 用 返回 sctp_sndrcvinfo。 
sctp association event 开启 /禁止 关联 建立 事件 通知 。 
sctp_address_event 开启 /禁止 地 址 事件 通知 。 


sctp send failure event 开启 /禁止 消息 发 送 故 障 事 件 通 知 。 
Sctp peer error event 开启 /禁止 对 端 协议 出 错 事件 通知 。 
sctp shutdown event 开启 /禁止 关联 终止 事件 通知 。 
Sctp partial delivery event 开启 /禁止 部 分 递送 API 事 件 通知 。 
Sctp adaption layer event 开启 /禁止 适 配 层 事件 通知 。 





图 7-17 sctp_event_subscribe 结 构 的 各 个 字段 


7.10.7 SCTP_GET_PEER_ADDR_INFO 套 接 字 选项 


本 选项 仅 用 于 获取 某 个 给 定 对 端 地 址 的 相关 信息 ， 包 括 拥塞 窗口 、 平 滑 化 后 的 RTT 和 MTU 
等 。 作 为 本 选项 的 输入 的 是 sctp_padarinfo 结 构 。 调 用 者 在 其 中 的 spinfo_adaress 字 段 填 入 
待 查询 的 对 端 地 址 , 并 且 为 了 便于 移植 , 应 该 使 用 sctp_opt_info 函 数 而 不 是 get sockopt 函 数 。 
sctp_padqrinfo 结 构 的 格式 如 下 : 


struct sctp paddrinfo { 

Sctp assoc t spinfo assoc id; 

struct sockaddr storage spinfo address; 
int32 t spinfo state; 

u int32 t spinfo, cwnd; 

u int32 t spinfo srtt; 

u int32 t spinfo rto; 

u int32 t spinfo mtu; 

}; 

返回 给 调用 者 的 该 结构 中 各 个 字段 的 含义 如 下 所 述 。 

e spinfo_assoc_id 存 放 关 联 标识 ， 它 和 “communication up”( 通 信 开 始 ) 即 
SCTP_COMM_UP 通 知 中 提供 的 信息 一 致 。 几 乎 所 有 SCTP 操 作 都 可 以 使 用 这 个 唯一 的 值 作 
为 相应 关联 的 简明 标识 。 

e spinfo_adqdress 由 调用 者 设置 ， 用 于 告知 SCTP 套 接 字 想 要 获取 哪 . -个 对 端 地 址 的 信 
上 县。 调用 返回 时 其 值 不 应 该 改变 。 

e spinfo_state 存 放 图 7-18 所 示 的 一 个 或 多 个 常 值 。 


地 址 当前 不 可 达 。 


SCTP_ACTIVE 
SCTP_INACTIVE 
SCTP.ADDR UNCONFIRMED | 地 址 尚未 由 心 搏 或 用 户 数据 证 实 。 


图 7-18 SCTP 对 端 地 址 状态 
其 中 未 证 实地 址 (unconfirmed address) 是 一 个 对 端 已 作为 有 效 地 址 列 出 ， 而 本 地 SCTP 尚 
不 能 证 实 对 端 确实 持 有 它 的 地 址 。 当 送 往 某 个 地 址 的 心 搏 或 用 户 数据 得 到 对 端 确认 时 ， 本 地 
SCTP 端 点 就 可 以 证 实 该 地 址 确实 为 对 端 所 有 了 。 注 意 ， 未 证 实 的 地 址 并 没有 有 效 的 重 传 超时 












地 址 活跃 且 可 达 。 
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(retransmission timeout，RTO) 值 。 活 跃 地 址 则 表示 被 认为 是 可 用 的 地 址 。 
e spinfo_cwnd 表 示 为 所 指定 对 端 地 址 维护 的 当前 拥塞 窗口 。[ Stewart and Xie 2001] 第 
177 页 讲述 了 如 何 管理 cwma 值 。 
e spinfo_srtt 表 示 就 所 指定 对 端 地 址 而 言 的 平滑 化 后 RTT 的 当前 估计 值 。 
e spinfo_rto 表 示 用 于 所 指定 对 端 地 址 的 当前 重 传 超时 值 。 
e spinfo_mtu 表 示 由 路 径 MTU 发 现 功能 发 现 的 通 往 所 指定 对 端 地 址 的 路 径 MTU 的 当 
前 值 。 
本 选项 的 一 个 有 意思 的 用 途 是 : 把 一 个 IP 地 址 结构 转换 成 一 个 可 用 于 其 他 调用 的 关联 标识 。 
我 们 将 在 第 23 章 中 冰 述 这 个 套 接 字 选 项 的 用 法 。 另 一 个 可 能 用 途 是 : 由 应 用 进程 跟踪 一 个 多 宿 
对 端 主机 每 个 地 址 的 性 能 ， 并 把 相应 关联 的 主 目的 地 址 更 新 为 其 中 性 能 最 佳 的 一 个 。 这 些 值 也 
同样 有 利于 日 志 记 录 和 程序 调试 。 


7.10.8 SsCTP I WANT MAPPED V4 ADDR 套 接 字 选项 


这 个 标志 套 接 字 选 项 用 于 为 AF_INET6 类 型 的 套 接 字 开 启 或 禁止 JPv4 映 射 地 址 ， 其 默认 状态 
为 开店。 注意 ， 本 选项 开启 时 ， 所 有 IPv4 地 址 在 送 往 应 用 进程 之 前 将 被 映射 成 一 个 IPv6 地 址 。 
本 选项 禁止 时 ，SCTP 套 接 字 不 会 对 IPv4 地 址 进行 映射 ， 而 是 作为 sockaaar_in 结 构 直接 传递 。 


7.10.9 scTP INITMSG 套 接 字 选项 


本 套 接 字 选项 用 于 获取 或 设置 某 个 SCTP 套 接 字 在 发 送 INIT 消 息 时 所 用 的 默认 初始 参数 。 作 
为 本 选项 的 输入 的 是 sctp_initmsg 结 构 ， 其 定义 如 下 : 
struct sctp_initmsg { 
. uinti6 t sinit, num ostreams; 
uintl6 t sinit max instreams; 
uinti6 t sinit max attempts; 
uintl6 t sinit max init timeo; 


) 

这 些 字段 的 含义 如 下 所 述 。 

e sini t_num_ostreams 表 示 应 用 进程 想 要 请 求 的 外 出 SCTP 流 的 数 目 。 该 值 要 等 到 相应 关 
联 完成 初始 握手 后 才 得 到 确认 ， 而 且 可 能 因为 对 端的 限制 而 向 下 协调 。 

e sinit_max_instreams 表 示 应 用 进程 准备 允许 的 外 来 SCTP 流 的 最 大 数目 。 如 果 该 值 大 
于 SCTP 协 议 栈 所 支持 的 最 大 允许 流 数 ， 那 么 它 将 被 改 为 这 个 最 大 数 。 

e sinit_max_attempts 表 示 SCTP 协 议 栈 应 该 重 传 多 少 次 初始 INIT 消 息 才 认 为 对 端 不 可 
达 。 

èe sinit max init_timeo 表 示 用 于 INIT 定 时 器 的 最 大 RTO 值 。 在 初始 定时 器 进行 指数 退 
避 期 间 ， 该 值 将 替代 RTo.max 作 为 重 传 RTO 极 限 。 该 值 以 毫秒 为 单位 。 

注意 ， 当 设置 这 些 字段 时 ，SCTP 将 忽略 其 中 的 任何 0 值 。 一 到 多 式 套 接 字 (9.2 节 ) 的 用 户 

在 关联 隐 性 建立 期 间 也 可 能 在 辅助 数据 中 传递 一 个 sctp_initmsg 结 构 。 


7.10.10 scTP MAXBURST 套 接 字 选项 


本 套 接 字 选 项 允许 应 用 进程 获取 或 设置 用 于 分 组 发 送 的 最 大 其 发 大 小 (maximum burst 
size)。 当 SCTP 向 对 端 发 送 数据 时 ， 一 次 不 能 发 送 多 于 这 个 数目 的 分 组 ， 以 免 网 络 被 分 组 济 没 。 
具体 的 SCTP 实 现 有 两 种 方法 应 用 这 个 限制 : (1) 把 拥塞 窗口 缩减 为 当前 飞行 大 小 (current flight 
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size) 加 上 最 大 狂 发 大 小 与 路 径 MTU 的 乘积 : (2) 把 该 值 作为 一 个 独立 的 微观 控制 量 ， 在 任意 
一 个 发 送 机 会 最 多 只 发 送 这 个 数目 的 分 组 。 


7.10.11 scTP_MAXSEG 套 接 字 选项 


本 套 接 字 选项 允许 应 用 进程 获取 或 设置 用 于 SCTP 分 片 的 最 大 片段 大 小 (maximum fragment 
size)。 本 选项 和 7.9 节 中 讲述 的 TCP 选 项 TCP_MAXSEG 类 似 。 

当 某 个 SCTP 发 送 端 从 其 应 用 进程 收 到 一 个 大 于 这 个 大 小 的 消息 时 , 它 将 把 该 消息 分 割 成 多 
个 块 ， 以 便 分 别传 送 到 对 端 。SCTP 发 送 端 通常 使 用 的 这 个 大 小 是 通达 它 的 对 端的 所 有 路 径 各 自 
的 MTU 中 的 最 小 值 〈 每 条 路 径 对 应 一 个 对 端 地 址 )。 设 置 本 选项 可 以 把 这 个 大 小 降低 到 所 指定 
的 值 。 注 意 ，SCTP 可 能 以 比 本 选项 所 请 求 的 值 更 小 的 边界 分 割 消 息 。 当 通达 对 端的 某 条 路 径 的 
MTU 变 得 比 本 选项 所 请 求 的 值 还 要 小 时 ， 这 种 偏 小 的 分 割 就 会 发 生 。 

最 大 片段 大 小 是 一 个 端点 范围 的 设置 ， 在 一 到 多 式 接口 中 ， 它 可 能 影响 不 止 一 个 关联 。 


7.10.12 scTP NODELAY 套 接 字 选 项 


开启 本 选项 将 禁止 SCTP 的 Nagle 算 法 。 本 选项 默认 关闭 (也 就 是 说 默认 情况 下 Nagle 算 法 是 
启动 的 )。SCTP 的 Nagle 算 法 与 TCP 的 Nagle 算 法 工作 原理 相同 , 区 别 在 于 前 者 对 付 多 个 DATA 块 ， 
后 者 对 付 单个 流 上 的 字 节 。 关 于 Nagle 算 法 的 讨论 见 TCP_NODELAY。 


7.10.13 scTP PEER ADDR PARAMS 套 接 字 选项 


本 套 接 字 选项 允许 应 用 进程 获取 或 设置 关于 某 个 关联 的 对 端 地 址 的 各 种 参数 。 作 为 本 选项 
的 输入 的 是 sctp_paddrparams 结 构 。 调 用 者 必须 在 该 结构 中 填写 关联 标识 和 /或 一 个 对 端 地 址 ， 
其 定义 如 下 : 

struct sctp_paddrparams { 

Sctp assoc t spp assoc, id; 
struct sockaddr storage spp address; 
u int32 t spp hbinterval; 


u intl6 t spp pathmaxrxt; 
} t 


这 些 字段 的 含义 如 下 所 述 。 

e spp_assoc_id 存 放 在 其 上 获取 或 设置 参数 信息 的 关联 标识 。 如 果 该 值 为 0， 那 么 所 访问 
的 是 端点 默认 参数 ， 而 不 是 特定 于 关联 的 参数 。 

e spp_address 指 定 其 参数 待 获 取 或 待 设置 的 对 端 IP 地 址 。 如 果 spp_assoc_id 字 段 值 为 
0， 那 么 本 字段 被 忽略 。 

e spp_hbinterval 表 示 心 搏 间隔 时 间 。 设 置 该 值 为 scTP_No_HB 将 禁止 心 捕 ， 为 
SCTP_ISSUE_HB 将 按 请 求 心 搏 ， 为 其 他 值 则 将 把 心 搏 间 隔 重 置 为 以 训 秒 为 单位 的 新 值 。 
设置 端点 默认 参数 时 ， 不 能 使 用 scTP_ISsSUE_HB 这 个 值 。 

e spp_pathmaxrxt 表 示 在 声明 所 指定 对 端 地 址 为 不 活跃 之 前 将 尝试 的 重 传 次 数 。 当 主 目 

的 地 址 被 声明 为 不 活跃 时 ， 另 外 一 个 对 端 地 址 将 被 选 为 主 目 的 地 址 。 


7.10.14 SscTP PRIMARY ADDR 套 接 字 选项 


本 套 接 字 选项 用 于 获取 或 设置 本 地 端点 所 用 的 主 目的 地 址 。 主 目的 地 址 是 本 端 发 送 给 对 端 
的 所 有 消息 的 默认 目的 地 址 。 作 为 本 选项 的 输入 的 是 sctp_setprim 结 构 。 调 用 者 必须 在 该 结构 
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中 填写 关联 标识 ， 若 是 设置 主 目的 地 址 则 再 填写 一 个 将 用 作 主 目的 地 址 的 对 端 地 址 ， 其 定义 如 
Ta 


struct sctp setprim ( 
sctp assoc, t ssp_assoc_id; 
struct sockaddr_storage ssp_addr; 

) 

这 些 字段 的 含义 如 下 所 述 。 

e ssp_assoc_id 存 放 在 其 上 获取 或 设置 当前 主 目的 地 址 的 关联 标识 。 对 于 一 到 一 式 套 接 
字 ， 本 字段 被 忽略 。 

e. ssp_adarf# d: 目的 地 址 (H 的 地 址 必须 是 一 个 属于 对 端 的 地 址 )。 使 用 setsockopt 
函数 设置 本 选项 时 ， 本 字段 为 请 求 者 要 求 设置 的 主 目的 地 址 的 新 值 ， 使 用 get sockopt 
函数 获取 本 选项 时 ， 本 字段 为 当前 所 用 主 目的 地 址 的 值 。 

注意 ， 在 只 有 一 个 本 地 地 址 与 之 关联 的 一 到 一 式 套 接 字 上 获取 本 选项 的 值 跟 直接 调用 

getsockname 是 一 样 的 。 


7.10.15 scTP RTOINFO 套 接 字 选 项 


本 套 接 字 选 项 用 于 获取 或 设置 各 种 RTO 人 信息， 它们 既 可 以 是 关于 某 个 给 定 关联 的 设置 ， 也 
可 以 是 用 于 本 地 端点 的 默认 设置 。 为 了 便于 移植 ， 当 获取 信息 时 ， 调 用 者 应 该 使 用 
sctp_opt_info 函 数 而 不 是 getsockopt 函 数 。 作 为 本 选项 的 输入 的 是 sctp_rtoinfo 结 构 ， 其 
定义 如 下 : 


struct sctp rtoinfo { 


sctp assoc t srto assoc id; 
vint32 t srto initial; 
uint32 t srto max; 
uint32 t srto min; 


}; 
这 些 字段 的 含义 如 下 所 述 。 
e srto_assoc_id 存 放 感 兴趣 关联 的 标识 或 0。 若 值 为 0， 当 前 函数 调用 会 对 系统 的 默认 参 
数 产生 影响 。 
e srto_initial 存 放 用 于 对 端 地 址 的 初始 RTO 值 。 初 始 RTO 值 在 向 对 端 发 送 INIT 块 时 使 
用 。 该 值 以 毫秒 为 单位 且 默 认 值 为 3 000。 
e srto_max 存 放 在 更 新 重 传 定 时 器 时 使 用 的 最 大 RTO 值 。 如 果 更 新 后 的 RTO 值 大 于 这 个 
RTO 最 大 值 ， 那 就 把 这 个 最 大 值 作为 新 的 RTO 值 。 该 值 默认 为 60 000. 
e srto_min 存 放 在 启动 重 传 定时 器 时 使 用 的 最 小 RTO 值 。 任 何 时 候 RTO 定 时 器 一 旦 更 改 ， 
就 对 照 这 个 RTO 最 小 值 检查 新 值 。 如 果 新 值 小 于 最 小 值 ， 那 就 把 这 个 最 小 值 作为 新 的 
RTO 值 。 该 值 默认 为 1 000。 
srto_initial、srto_max 或 srto_min 值 为 0 表示 当前 设 定 的 默认 值 不 应 改变 。 所 有 时 间 
值 都 以 毫秒 为 单位 。 我 们 将 在 23.11 节 给 出 为 提升 性 能 而 设置 这 些 定时 器 值 的 指导 。 


7.10.16 scTP SET PEER PRIMARY ADDR 套 接 字 选 项 


设置 本 套 接 字 选 项 导致 发 送 一 个 消息 :请 求 对 端 把 所 指定 的 本 地 地 址 作为 它 的 主 上 且 的 地 址 。 
作为 本 选项 的 输入 的 是 sctp_setpeerprim 结 构 。 调 用 者 必须 在 该 结构 中 填写 关联 标识 和 一 个 
请 求 对 端 标 为 其 主 目的 地 址 的 本 地 地 址 。 这 个 本 地 地 址 必须 已 经 绑 定 在 本 地 端点 。 
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sctp_setpeerprim 结 构 的 定义 如 下 : 


struct sctp_setpeerprim { 


}; 
这 些 字段 的 含义 如 下 。 


sctp assoc t sspp_assoc_id; 
struct sockaddr_storage sspp_addr; 


sspp_assoc_id 指 定 在 其 上 想 要 设置 主 目的 地 址 的 关联 标识 。 对 于 一 到 一 式 套 接 字 ,本 
字段 被 忽略 。 
sspp_addr 存 放 想 要 对 端 设 置 为 主 目的 地 址 的 本 地 地 址 。 


本 特性 是 可 选 的 ， 只 有 两 端 均 支 持 才 能 运作 。 如 果 本 地 端点 不 支持 本 特性 ， 那 就 给 调用 者 
EOPNOTSUPP 返 回 错误 。 如 果 远 程 端点 不 支持 本 特性 ， 那 就 返回 调用 者 EINVAL 错 误 。 另 外 注意 ， 
本 套 接 字 选 项 只 能 设置 ， 不 能 获取 。 


7.10.17 scmTP STATUS 套 接 字 选项 


本 套 接 字 选 项 用 于 获取 某 个 SCTP 关 联 的 状态 。 为 了 便于 移植 ， 调 用 者 应 该 使 用 
sctp_opt_info 函 数 而 不 是 getsockopt 数 。 作 为 本 选项 的 输入 的 是 sctp_status 结 构 。 调 用 
者 必须 在 该 结构 中 填写 关联 标识 ， 关 于 这 个 关联 的 信息 将 在 返回 时 被 填写 到 该 结构 的 其 他 字段 
中 。sctp_status 结 构 的 格式 如 下 : 


struct sctp_status { 


e bk 


sctp assoc t sstat assoc id; 

int32 t sstat state; 

u int32 t sstat, rwnd; 

u intl6 t sstat unackdata; 

u intl16 t sstat penddata; 

u .intl6 t sstat instrms; 

u intl16 t sstat outstrms; 

u int32 t sstat fragmentation point; 
struct sctp paddrinfo sstat primary; 


些 字段 的 含义 如 下 。 
sstat_assoc_ig 存 放 关 联 标识 。 
sstat_state 存 放 图 7-19 所 示 常 值 之 一 , 指出 关联 的 总 体 状 态 。 图 2-8 详 细 描 述 了 在 关联 
建立 或 终止 期 间 ， 一 个 SCTP 端 点 经 历 的 状态 。 
sstat_rwnd 存 放 本 地 端点 对 于 对 端 接收 窗口 的 当前 估计 。 
sstat_unackdata 存 放 等 着 对 端 处 理 的 未 确认 DATA 块 数目 。 
sstat_penddata 存 放 本 地 端点 暂 存 并 等 着 应 用 进程 读 取 的 未 读 DATA 块 数目 。 
sstat_instrms 存 放 对 端 用 于 向 本 端 发 送 数据 的 流 的 数目 。 
sstat_outstrms 存 放 本 端 可 用 于 向 对 端 发 送 数据 的 流 的 数目 。 
sstat_fragmentation_point 存 放 本 地 SCTP 端 点 将 其 用 作用 户 消息 分 割 点 的 当前 值 。 
该 值 通常 是 所 有 目的 地 址 的 最 小 MTU , 或 者 是 由 本 地 应 用 进程 使 用 scTP_MAXSEG 套 接 字 
选项 设置 的 更 小 的 值 。 
sstat_primary 存 放 当 前 主 目的 地 址 。 主 目的 地 址 是 向 对 端 发 送 数据 时 使 用 的 默认 目的 
地 址 。 


这 些 值 可 用 于 诊断 或 确定 会 话 的 特征 。 举 例 来 说 ，10.2 节 将 介绍 的 sctp_get_no_strms 函 
数 将 使 用 sstat_outstrms 成 员 确 定 有 多 少 外 出 流 可 用 。 偏 低 的 sstat_rwnd 值 和 /或 偏 高 的 
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sstat_unackdata 值 可 用 于 判定 对 端的 接收 套 接 字 缓 冲 区 正在 变 满 ， 这 一 点 又 可 用 作 让 应 用 进 
程 尽 可 能 降低 发 送 速 率 的 信号 。 有 些 应 用 进程 使 用 sstat_fragmentation_point 减 少 SCTP 不 
得 不 创建 的 片段 数量 ， 办 法 就 是 发 送 较 小 的 应 用 消息 。 






关联 已 关闭 
关联 已 发 送 INIT 

关联 已 回 射 COOKIE 

关联 已 建立 

关联 期 待 发 送 SHUTDOWN 

关联 已 发 送 SHUTDOWN 
关联 已 收 到 SHUTDOWN 
关联 在 等 待 SHUTDOWN-COMPLETE 


SCTP CLOSED 






SCTP COOKIE, WAIT 





SCTP COOKIE ECHOED 





SCTP. ESTABLISHED 
SCTP SHUTDOWN, PENDING 
SCTP SHUTDOWN. SENT 
SCTP SHUTDOWN, RECEIVED 




















SCTP. SHUTDOWN, ACK, SENT 





图 7-19 SCTP 状态 
7.11 fentl 函数 

与 代表 “file control”( 文 件 控制 ) 的 名 字 相 符 ，fcnt1 函 数 可 执行 各 种 描述 符 控制 操作 。 
在 讲解 该 函数 及 其 如 何 影响 套 接 字 之 前 ， 我 们 需要 看 得 远 一 点 。 图 7-20 汇 总 了 由 fcnt1、ioct1l 
和 路 由 套 接 字 执 行 的 不 同 操作 。 

其 中 前 六 个 操作 可 由 任何 进程 应 用 于 套 接 字 ， 接 着 两 个 操作 (接口 操作 )〉 比较 少见 ， 不 过 
也 是 通用 的 ， 后 两 个 操作 (ARP 和 路 由 表 操 作 ) 由 诸如 ifconfig 和 route 之 类 管理 程序 执行 。 
我 们 将 在 第 17 章 中 详细 讨论 各 种 ioct1 操 作 ， 在 第 18 章 中 详细 讨论 路 由 套 接 字 。 

执行 前 四 个 操作 的 方法 不 止 一 种 ， 不 过 我 们 在 最 后 一 列 指出 ，POSIX 规 定 fcnt1 方 法 是 首 
选 的 。 我 们 还 指出 ，POSIX 提 供 sockatmark 函 数 〈(24.3 节 〉 作为 测试 是 否 处 于 带 外 标志 的 首选 
方法 。 最 后 一 列 空白 的 其 余 操 作 没 有 被 POSIX 标 准 化 。 


路 由 套 接 字 | POSIX | 
设置 套 接 字 为 非 阻塞 式 1O 弄 eR RRS PR MEN E RN 
REBT B15 5 Eh RVOM ee ee eee NNNM 


FIOSETOWN 


RMB TRE F_GETOWN SIOCGPGRP 或 fcnt1 
Sans eae 


































获取 套 接 字 接 收 缓冲 区 中 的 字 节 数 FIONREAD 
测试 大 接 字 是 否 处 于 带 外 标志 | | s:wmmx | — — — seckatmark | 













交 取 接口 列表 | Stem [evel | —— — 
EE WN —— — 


ee EUER 
Scan | | — 
图 7-20 fcntl1、iocct1 和 路 由 套 接 字 操 作 小 结 


我 们 还 指出 ， 设 置 套 接 字 为 非 阻塞 式 HO 型 和 信号 驱动 式 JO 型 的 前 两 个 操作 ， 历 史上 曾 
用 fcnt1 的 FNDELAY 和 FARASYNC 命 令 执 行 ，POSIX 定 义 的 是 O_xxx 常 值 。 


fcnt1 函 数 提供 了 与 网 络 编程 相关 的 如 下 特性 。 
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e 非 阻塞 式 IJO。 通 过 使 用 F_SsETFL 命 令 设 置 C_NONBLOCK 文 件 状 态 标志 ， 我 们 可 以 把 一 个 
套 接 字 设 置 为 非 阻塞 型 。 我 们 将 在 第 16 章 中 讲述 非 阻塞 式 1O。 

e 信号 驱动 式 UO。 通 过 使 用 F_SETFL 命 令 设置 o_aAsYNc 文 件 状 态 标志 ， 我 们 可 以 把 一 个 套 
接 字 设 置 成 一 旦 其 状态 发 生变 化 ， 内 核 就 产生 一 个 srcIo 信 和 号。 我 们 将 在 第 25 章 中 讨论 
这 一 点 。 

e F_SETOWN 命 令 允 许 我 们 指定 用 于 接收 sIGIO 和 sIGURG 信 号 的 套 接 字 属 主 (进程 DD 或 进 
程 组 ID)。 其 中 sIGr0 信 号 是 套 接 字 被 设置 为 信号 驱动 式 1/O 型 后 产生 的 (第 25 章 )， 
SIGURG 信 号 是 在 新 的 带 外 数据 到 达 套 接 字 时 产生 的 (第 24 章 )。F_GETOWN 命 令 返 回 套 
接 字 的 当前 属 主 。 


术语 “ 套 接 字 属 主 ” 由 POSIX 定 义 。 历史 上 源 自 Berkeley 的 实现 称 之 为 “ 套 接 字 的 进程 组 
ID”， 国 为 存放 该 ID 的 变量 是 socket 结 构 的 so_pgid 成 员 (TCPv2 第 438 页 ). 


#include <fcntl.h> 


int fcntl(int fd, int cmd, ... /* int arg */ ); 
Pl: 若 成 功 则 取决 于 cmd， 若 出 错 则 为 -1 








每 种 描述 符 〈 包 括 套 接 字 描述 符 ) 都 有 一 组 由 F_GETFL 命 令 获 取 或 由 F_SETFL 命 令 设 置 的 
文件 标志 。 其 中 影响 套 接 字 描 述 符 的 两 个 标志 是 : 
O_NONBLOCK 一 一 非 阻塞 式 IO; 
O_ASYNC 一 一 信号 驱动 式 IO。 
后 面 我们 将 详细 讲述 这 两 个 特性 。 现 在 我 们 只 需 注意 ， 使 用 fcnt1 开 局 非 阻塞 式 1O 的 典型 
代码 将 是 : 
int flaas; 
/* Set a socket as nonblocking */ 
if ( (flags = fcntl(fd, F_GETFL, 0)) < 0) 
err sys("F GETFL error"); 
flags | = O NONBLOCK; 


if (fcntl(fd, F SETFL, flags) < 0) 
err Sys("F SETFL error"); 


下 面 是 你 可 能 会 遇 到 的 、 简 单 地 设置 所 期 望 标志 的 代码 : 


/* Wrong way to set a socket as nonblocking */ 
if (fcntl(fd, F_SETFL, O NONBLOCK) < 0) 
err Sys("F SETFL error"); 


这 段 代 码 在 设置 非 阻 塞 标志 的 同时 也 清除 了 所 有 其 他 文件 状态 标志 。 设 置 菜 个 文件 状态 标 
志 的 唯一 正确 的 方法 是 ， 先 取得 当前 标志 ， 与 新 标志 逻辑 或 后 再 设置 标志 。 
以 下 代码 关闭 非 阻塞 标志 ， 其 中 假设 flags 是 由 上 面 所 示 的 fcnt1 调 用 来 设置 的 : 


flags &- ~O_NONBLOCK; 
if (fcntl(fd, F SETFL, flags) < 0) 
err sys("F SETFL error"); 


信号 sIGIO 和 sIGURG 与 其 他 信号 的 不 同 之 处 在 于 , 这 两 个 信号 仅 在 已 使 用 F_sETOWN 命 令 给 
相关 套 接 字 指 派 了 属 主 后 才 会 产生 。F_SETOvmN 命 令 的 整数 类 型 arg 参 数 既 可 以 是 一 个 正 整数 ， 
指出 接收 信号 的 进程 ID， 也 可 以 是 一 个 负 整数 ， 其 绝对 值 指出 接收 信号 的 进程 组 ID。F_GETOWN 
命令 把 套 接 字 属 主 作 为 fcnti 函 数 的 返回 值 返回 ， 它 既 可 以 是 进程 ID (一 个 正 的 返回 值 )， 也 可 
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以 是 进程 组 ID (一 个 除 -1 以 外 的 负 值 )。 指定 接收 信号 的 套 接 字 属 主 为 一 个 进程 或 一 个 进程 组 的 
差别 在 于 : 前 者 仅 导 致 单个 进程 接收 信号 ， 而 后 者 则 导致 整个 进程 组 中 的 所 有 进程 (也 许 不 止 
一 个 进程 ) 接收 信和 号。 

使 用 socket 函 数 新 创建 的 套 接 字 并 没有 属 主 。 然而 如 果 一 个 新 的 套 接 字 是 从 一 个 监听 套 接 
字 创 建 来 的 ， 那 么 套 接 字 属 主将 由 已 连接 套 接 字 从 监听 套 接 字 继 承 而 来 (许多 套 接 字 选项 也 是 
这 样 继 承 ， 见 TCPv2 第 462 一 463 页 )。 
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套 接 字 选 项 从 非常 通用 (例如 so_ERROR〉 到 非常 专门 (例如 IP 首 部 选项 ) 都 有 。 我 们 可 能 
遇 到 的 最 常用 的 选项 是 : SO_KEEPALIVE、SO_RCVBUF、SO_SNDBUF 和 SO_REUSEADDR。 其 中 最 
后 那个 选项 应 该 总 是 在 一 个 TCP 服 务 器 进程 调用 bina 之 前 预先 设置 (图 11-12)。So_BROADCRAST 
选项 和 10 个 多 播 套 接 字 选项 仅仅 分 别 适用 于 进行 广播 或 多 播 的 应 用 程序 。 

许多 TCP 服 务 器 设置 So_KEEPALIVE 套 接 字 选项 以 自动 终止 一 个 半 开 连接 。 该 选项 的 优点 在 
于 它 由 TCP 层 处 理 ， 不 需要 有 一 个 应 用 级 的 休止 状态 定时 器 ， 而 它 的 缺点 是 无 法 区 别 客 户主 机 
裔 溃 和 到 客户 主机 连通 性 的 暂时 丢失 。SCTP 提 供 了 17 个 应 用 程序 用 来 控制 传输 的 套 接 字 选 项 。 
SCTP_NODELAY 和 SCTP_MAXSEG 选 项 与 TCP_NODELAY 和 TCP_MAXSEG 选 项 类 似 ， 并 有 着 相同 的 功 
能 。 而 其 他 15 个 选项 为 应 用 程序 带 来 了 对 SCTP 栈 的 更 佳 控制 。 我 们 将 在 第 23 章 讨论 其 中 许多 选 
项 的 用 途 。 

SO_LINGER 套 接 字 选 项 使 得 我 们 能 够 更 好 地 控制 close 函 数 返回 的 时 机 ， 而 且 允 许 我 们 强 
制 发 送 RST 而 不 是 TCP 的 四 分 组 连接 终止 序列 。 我 们 必须 小 心 发 送 RST， 因 为 这 么 做 回避 了 TCP 
的 TIME_WAIT 状 态 。 本 套 接 字 选 项 许多 时 候 无 法 提供 我 们 所 需 的 信息 , 这 种 情况 下 应 用 级 ACK 
变 得 必要 。 

每 个 TCP 套 接 字 和 SCTP 套 接 字 都 有 一 个 发 送 缓冲 区 和 一 个 接收 缓冲 区 , 每 个 UDP 套 接 字 都 
有 一 个 接收 缓冲 区 。so_sNDBUF 和 so_RCcVBUF 套 接 字 选项 允许 我 们 改变 这 些 缓冲 区 的 大 小 。 这 
两 个 选项 最 常见 的 用 途 是 长 胖 管 道上 的 批量 数据 传送 。 长 胖 管 道 是 或 高 带宽 或 长 延 时 的 TCP 连 
E, 通常 使 用 RFC 1323 中 为 高 性 能 定义 的 扩展 。 另 一 方面 ，UDP 套 接 字 可 能 期 望 增加 接收 缓冲 
区 的 大 小 以 允许 内 核 在 应 用 进程 较 忙 时 排队 更 多 的 数据 报 。 
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71 写 一 个 输出 默认 TCP 和 UDP 发 送 和 接收 缓冲 区 大 小 的 程序 ， 并 在 你 有 访问 权限 的 系统 上 运行 该 程序 。 

72 ”将 图 1-5 做 如 下 修改 : 在 调用 connect 之 前 ， 调 用 get sockopt 得 到 套 接 字 接收 缓冲 区 的 大 小 和 MSS， 
并 输出 这 两 个 值 。 connect 返 回 成 功 后 , 再 次 获取 这 两 个 套 接 字 选 项 并 输出 它们 的 值 , 值 变 化 了 吗 ? 
为 什么 ? 运行 本 客户 程序 两 个 实例 ， 一 个 连接 到 本 地 网 络 上 的 一 个 服务 器 ， 另 一 个 连接 到 非 本 地 网 
络 上 的 一 个 远程 服务 器 。MSS 变 化 吗 ? 为 什么 ? 你 应 在 你 有 访问 权 的 任何 不 同 主机 上 运行 本 程序 。 

7.3 ”从 图 5-2 和 图 5-3 的 TCP 服 务 器 程序 以 及 图 5-4 和 图 5-5 的 TCP 客 户 程 序 开始 , 修改 客户 程序 的 main 函 数 : 
在 调用 exit 之 前 设置 So_LINGER 套 接 字 选项 , 把 作为 其 输入 的 1 inger 结 构 中 的 1_onoff 成 员 设 置 为 
1，1_]linger 成 员 设置 为 0。 先 启动 服务 器 ， 然 后 启动 客户 。 在 客户 上 键入 一 行 或 两 行文 本 以 检验 操 
作 正 常 ， 然 后 键入 EOF 以 终止 客户 ,将 发 生 什 么 情况 ? 终止 客户 后 ,在 客户 主机 上 运行 hetstat， 查 
看 套 接 字 是 否 经 历 了 TIME_WAIT 状 态 。 
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习题 185 


假设 有 两 个 TCP 客 户 在 同一 时 间 启 动 ， 都 设置 so_REUSEADDR 套 接 字 选项 ， 且 以 相同 的 本 地 地址 和 
相同 的 端口 号 〈 辟 如 说 ，1500) 调用 bind， 但 一 个 客户 连接 到 198.69.10.2 的 端口 7000， 另 一 个 客户 
连接 到 198.69.10.2〔 相 同 的 人 P 地 址 〉 的 端口 8000。 阐 述 所 出 现 的 竞争 状态 。 

获取 本 书 中 例子 的 源 代 码 〈 见 前 言 ) 并 编译 sock 程 序 (C.3 节 )。 将 你 的 主机 划分 为 三 类 : (1) 没有 多 
播 支持 ，(2) 有 多 播 支持 但 不 提供 so_REUSEPORT，(3) 有 多 播 支持 且 提 供 so_REUSEPORT。 试 着 在 同 
一 个 端口 上 启动 sock 程 序 的 多 个 实例 作为 TCP 服 务 器 〈-s 命 令 行 选 项 )， 分 别 捆绑 通 配 地 址 、 你 的 主 
机 的 某 个 接口 地 址 以 及 环 回 地 址 。 你 需要 指定 so_REUSEADDR 选 项 ( -A 命令 行 选项 ) 吗 ? 使 用 
netstat 命 令 查看 监听 套 接 字 。 

继续 前 面 的 例子 ， 不 过 启动 的 是 作为 UDP 服务 器 〈-u 命 令 行 选项 ) 的 两 个 实例 ， 捆 绑 相 同 的 本 地 卫 
地 址 和 端口 号 。 如 果 你 的 实现 支持 So_REUSEPORT， 试 着 用 它 “〈-T 命 令 行 选项 )。 

ping 程 序 的 许多 版 本 有 一 个 -q 标 志 用 于 开启 So_DEBUG 套 接 字 选 项 ， 这 是 干什么 用 的 ? 

继续 我 们 在 讨论 TCP_NODELAY 套 接 字 选 项 结尾 处 的 例子 。 假 设 客户 执行 了 两 个 write 调 用 : 第 一 个 
写 4 字 节 ， 第 二 个 写 396 字 节 。 另 假设 服务 器 的 ACK 延 灌 时 间 为 100ms， 客 户 与 服务 器 之 间 的 RTT 为 
100ms， 服 务 器 处 理 客 户 请 求 的 时 间 为 50ms。 夯 一 个 时 间 线 图 展示 延 滞 的 ACK 与 Nagle 算 法 的 相互 作用 。 
假设 设置 了 TCP_NODELAY 套 接 字 选项 ， 重 做 上 个 习题 。 

假设 进程 调用 writev 一 次 性 处 理 完 4 字 节 缓 冲 区 和 396 字 节 缓 冲 区 ， 重 做 习题 7.8。 

读 RFC 1122 [Barden 1989] 以 确定 延 滞 ACK 的 建议 间隔 。 

图 5-2 和 图 5-3 中 的 服务 器 程序 什么 地 方 耗 时 最 多 ? 假设 服务 器 设置 了 sO_KEEPALIVE 套 接 字 选 项 ， 而 
且 连 接 上 没有 数据 在 交换 ， 如 果 客 户主 机 骨 潢 且 没 有 重启 ， 那 将 发 生 什 么 ? 

图 5-4 和 图 5-5 中 的 客户 程序 什么 地 方 耗 时 最 多 ? 假设 客户 设置 了 so_KEEPALIVE 套 接 字 选项 ， 而 且 连 
接 上 没有 数据 在 交换 ， 如 果 服 务 器 主机 崩溃 且 没 有 重启 ， 那 将 发 生 什么 ? 

图 5-4 和 图 6-13 中 的 客户 程序 什么 地 方 耗 时 最 多 ? 假设 客户 设置 了 so_KEEPALIVE 套 接 字 选项 ， 而 且 
连接 上 没有 数据 在 交换 ， 如 果 服 务 器 主机 崩溃 且 没 有 重启 ， 那 将 发 生 什 么 ? 

假设 客户 和 服务 器 都 设置 了 so_KEEPaALIVE 套 接 字 选项 。 连接 两 端 维护 连通 性 , 但 是 连接 上 没有 应 用 
数据 在 交换 。 当 保持 存活 定时 器 每 2 小 时 到 期 时 ， 在 连接 上 有 多 少 TCP 分 节 被 交换 ? 

几乎 所 有 实现 都 在 头 文件 <sys/socket .h> 中 定义 了 so_accEPTCON 常 值 , 不 过 我 们 没有 讲述 这 个 选 
项 。 阅 读 [Lanciani 1996]， 和 弄 清 该 选项 为 什么 存在 。 
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在 使 用 TCP 编 写 的 应 用 程序 和 使 用 UDP 编写 的 应 用 程序 之 间 存 在 一 些 本 质 差 异 ， 其 原因 在 
于 这 两 个 传输 层 之 间 的 差别 : UDP 是 无 连接 不 可 靠 的 数据 报 协议 ， 非 常 不 同 于 TCP 提 供 的 面向 
连接 的 可 靠 字 节 流 。 然 而 相 比 TCP， 有 些 场 合 确实 更 适合 使 用 UDP， 我 们 将 在 22.4 节 探讨 这 个 设 
计 选 择 。 使 用 UDP 编写 的 一 些 常 见 的 应 用 程序 有 : DNS RARAN NFS (HAERA) 和 
SNMP (简单 网 络 管理 协议 )。 

图 8-1 给 出 了 典型 的 UDP 客户 /服务 器 程序 的 函数 调用 。 客 户 不 与 服务 器 建立 连接 ， 而 是 只 
管 使 用 sendto 函 数 (将 在 下 一 节 介 绍 ) 给 服务 器 发 送 数据 报 ， 其 中 必须 指定 目的 地 〈 即 服务 器 ) 
的 地 址 作为 参数 。 类 似 地 ， 服 务 器 不 接受 来 自 客户 的 连接 ， 而 是 只 管 调 用 recvfrom 函 数 ， 等 待 
来 自 某 个 客户 的 数据 到 达 。recvfrom 将 与 所 接收 的 数据 报 一 道 返回 客户 的 协议 地 址 ， 因 此 服务 
器 可 以 把 响应 发 送 给 正确 的 客户 。 


UDP 服务 器 






众所周知 端口 







一 直 阻塞 到 收 到 
来 自 客户 的 数据 





UDP 客户 
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图 8-1 UDP 客户 /服务 器 程序 所 用 的 套 接 字 函数 
图 8-1 所 示 为 UDP 客 户 /服务 器 交互 中 发 生 的 典型 情形 的 时 间 线 图 。 我 们 可 以 将 该 图 和 图 4-1 
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所 示 的 TCP 的 典型 交互 进行 比较 。 
本 章 中 我 们 将 介绍 用 于 UDP 套 接 字 的 两 个 新 函数 recvfrom 和 senato， 并 使 用 UDP 重 写 我 
们 的 回 射 客户 /服务 器 程序 。 我 们 还 将 介绍 connect 函 数 在 UDP 套 接 字 中 的 用 法 以 及 异步 错误 这 


个 概念 。 


8.2 recvfrom 和 sendto 函数 
这 两 个 限 数 类 似 于 标准 的 read 和 write 了 函数， 不 过 需要 三 个 额外 的 参数 。 


#include «sys/socket.h» 





ssize_t recvfrom(int sockfd, void *buff, size t nbytes, int flags, 


struct sockaddr *from, socklen t *addrlen); 


ssize t sendto(int sockfd, const void *buff, size t nbytes, int flags, 
const struct sockaddr *to, socklen t *addrlen); 


HEE: 车 成 功 则 为 读 或 写 的 字 节 数 ， 若 出 错 则 为 -1 

前 三 个 参数 sockfJd、buf 和 nbytes 等 同 于 read 和 write 函 数 的 三 个 参数 : 描述 符 、 指 向 读 入 
或 写 出 缓冲 区 的 指针 和 读 写 字 节 数 。 

flags 参 数 将 在 第 14 章 中 讨论 recv、send、recvmsg 和 sendmsg 等 函数 时 再 介绍 ， 本 章 中 重 
写 简单 的 UDP 回 射 客 户 /服务 器 程序 用 不 着 它们 。 时 下 我 们 总 是 把 flags 置 为 0。 

sendto 的 to 参数 指向 一 个 含有 数据 报 接 收 者 的 协议 地 址 (例如 下 地 址 及 端口 号 〉 的 套 接 字 
地 址 结构 ， 其 大 小 由 addrien 参 数 指定 。recvfrom 的 from 参 数 指向 一 个 将 由 该 函数 在 返回 时 填写 
数据 报 发 送 者 的 协议 地 址 的 套 接 字 地 址 结构 ， 而 在 该 套 接 字 地 址 结构 中 填写 的 字 节 数 则 放 在 
addrlen 参 数 所 指 的 整数 中 返回 给 调用 者 。 注 意 ，sendto 的 最 后 一 个 参数 是 一 个 整数 值 ， 而 
recvfrom 的 最 后 一 个 参数 是 一 个 指向 整数 值 的 指针 ( 即 值 -结果 参数 )。 

recvfrom 的 最 后 两 个 参数 类 似 于 accept 的 最 后 两 个 参数 : 返回 时 其 中 套 接 字 地 址 结构 的 
内 容 告 诉 我 们 是 谁 发 送 了 数据 报 (UDP 情况 下 ) 或 是 谁 发 起 了 连接 (TCP 情况 下 )。sendto 的 最 
后 两 个 参数 类 似 于 connect 的 最 后 两 个 参数 : 调用 时 其 中 套 接 字 地 址 结构 被 我 们 填 入 数据 报 将 
发 往 〈UDP 情 况 下 ) 或 与 之 建立 连接 (TCP 情况 下 ) 的 协议 地 址 。 

这 两 个 函数 都 把 所 读 写 数据 的 长 度 作为 函数 返回 值 。 在 recvfrom 使 用 数据 报 协议 的 典型 用 
途中 ， 返 回 值 就 是 所 接收 数据 报 中 的 用 户 数据 量 。 

写 一 个 长 度 为 0 的 数据 报 是 可 行 的 。 在 UDP 情况 下 ， 这 会 形成 一 个 只 包含 一 个 IP 首 部 〈 对 于 
IPv4 通 常 为 20 个 字 节 ， 对 于 IPv6 道 常 为 40 个 字 节 ) 和 一 个 8 字 节 UDP 首部 而 没有 数据 的 IP 数 据 报 。 
这 也 意味 着 对 于 数据 报 协议 ，recvfrom 返 回 0 值 是 可 接受 的 : 它 并 不 像 TCP 套 接 字 上 read 返 回 0 
值 那样 表示 对 端 已 关闭 连接 。 既然 UDP 是 无 连接 的 , 因此 也 就 没有 诸如 关闭 一 个 UDP 连接 之 类 事情 。 

如 果 recvfrom 的 太 om 参 数 是 一 个 空 指针 ， 那 么 相应 的 长 度 参数 Caddrlen) 也 必须 是 一 个 空 
指针 ， 表 示 我 们 并 不 关心 数据 发 送 者 的 协议 地 址 。 

recvfrom 和 senato 都 可 以 用 于 TCP， 尽 管 通常 没有 理由 这 样 做 。 


现在 ， 我 们 用 UDP 重新 编写 第 5 章 中 简单 的 回 射 客户 /服务 器 程序 。 我 们 的 UDP 客户 程序 和 
服务 器 程序 依循 图 8-1 中 所 示 的 函数 调用 流程 。 图 8-2 描 述 了 它们 所 使 用 的 函数 ， 图 8-3 则 给 出 了 
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服务 器 程序 的 main 函 数 。 
á fgets 
标准 输入 upp |sendto recvfrom| UDP 
= 客户 recvfrom sendto| 服务 器 
标准 输出 Eputs 
图 8-2 ”使 用 UDP 的 简单 回 射 客户 /服务 器 
Ls udpcliserv/udpserv01.c 

1 #include "unp.h" 

2 int 

3 main(int argc, char **argv) 

4 { 

5 int sockfd; 

6 struct sockaddr_in servaddr, cliaddr; 

7 Sockfd = Socket (AF_INET, SOCK_DGRAM, 0); 

8 bzero(&servaddr, sizeof (servaddr)); 

9 servaddr.sin family - AF INET; 

10 servaddr.sin addr.s addr - htonl(INADDR ANY); 

11 servaddr.sin port = htons(SERV. PORT); 

12 Bind(sockfd, (SA *) &servaddr, sizeof (servaddr)); 

13 dg echo(sockfd, (SA *) &cliaddr, sizeof(cliaddr)); 

14 } 


-— ———— udpcliserv/udpserv01.c 








图 8-3 UDP 回 射 服 务 器 程序 


创建 UDP 套 接 字 ， 捆 绑 服务 器 的 众所周知 端口 


7-12 


我 们 通过 将 socket 函 数 的 第 二 个 参数 指定 为 socK_DGRaM (IPv4 协 议 中 的 数据 报 套 接 
F) 创建 一 个 UDP 套 接 字 。 正如 TCP 服 务 器 程序 的 例子 ， 用 于 bina 的 服务 器 IPv4 地 址 被 
指定 为 INaADDR_aANY， 而 服务 器 的 众所周知 端口 是 头 文件 <unp.h> 中 定义 的 SERV_PORm 
常 值 。 


13 ”接着 ， 调 用 函数 dg_echo 来 执行 服务 器 的 处 理工 作 。 


8.4 UDP 回 射 服务 器 程序 ，ag_echo 函数 
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图 8-4 给 出 了 dg_echo 函 数 。 


-— — — lib/dg echo.c 





1 #include "unp.h" 

2 void 

3 dg echo(int sockfd, SA *pcliaddr, socklen t clilen) 
4 { 

5 int n; 

6 Socklen t len; 

7 char mesg [MAXLINE] ; 

8 for {37.7 ) { 

9 len = clilen; 

10 n = Recvfrom(sockfd, mesg, MAXLINE, 0, pcliaddr, &len); 
11 Sendto(sockfd, mesg, n, 0, pcliaddr, len); 
12 

13 } 


lib/dg echo.c 


图 8-4 dg echo. 在 数据 报 套 接 字 上 回 射 文本 行 
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读数 据 报 并 回 射 给 发 送 者 
8-12 ”该 函数 是 一 个 简单 的 循环 ， 它 使 用 recvfrom 读 入 下 一 个 到 达 服 务 器 端口 的 数据 报 ， 再 使 用 
sendto 把 它 发 送 回 发 送 者 。 

尽管 这 个 函数 很 简单 , 不 过 也 有 许多 细节 问题 需要 考虑 。 首先 , 该 函数 永 不 终止 , 因为 UDP 
是 一 个 无 连接 的 协议 ， 它 没有 像 TCP 中 EOF 之 类 的 东西 。 

其 次 ， 该 函数 提供 的 是 一 个 迭代 服务 器 (iterative server)， 而 不 是 像 TCP 服 务 器 那样 可 以 提 
供 一 个 并 发 服务 器 。 其 中 没有 对 fork 的 调用 ， 因 此 单个 服务 器 进程 就 得 处 理 所 有 客户 。 一 般 来 
说 ， 大 多 数 TCP 服 务 器 是 并 发 的 ， 而 大 多 数 UDP 服 务 器 是 迭代 的 。 

对 于 本 套 接 字 ，UDP 层 中 隐 含 有 排队 发 生 。 事 实 上 每 个 UDP 套 接 字 都 有 一 个 接收 缓冲 区 ， 
到 达 该 套 接 字 的 每 个 数据 报 都 进入 这 个 套 接 字 接 收 缓冲 区 。 当 进程 调用 recvfrom 时 ， 缓 冲 区 中 
的 下 一 个 数据 报 以 FIFO《〈 先 入 先 出 ) 顺序 返回 给 进程 。 这 样 ， 在 进程 能 够 读 该 套 接 字 中 任何 已 
排 好 队 的 数据 报 之 前 ， 如 果 有 多 个 数据 报到 达 该 套 接 字 ， 那 么 相继 到 达 的 数据 报 仅仅 加 到 该 套 
接 字 的 接收 缓冲 区 中 。 然 而 这 个 缓冲 区 的 大 小 是 有 限 的 。 我 们 已 在 7.$ 节 随 so_RCVBUF 套 接 字 选 
项 讨论 了 这 个 大 小 以 及 如 何 增 大 它 。 

图 8-5 总 结 了 第 5 章 中 的 TCP 客 户 /服务 器 在 两 个 客户 与 服务 器 建立 连接 时 的 情形 。 





图 8-5 ”两 个 客户 的 TCP 客 户 / 服 务 器 小 结 
服务 器 主机 上 有 两 个 已 连接 套 接 字 ， 其 中 每 一 个 都 有 各 自 的 套 接 字 接收 缓冲 区 。 


图 8-6 展 示 了 两 个 客户 发 送 数据 报到 UDP 服务 器 的 情形 。 


套 接 字 接 收 缓冲 区 
E 
数据 报 


图 8-6 ”两 个 客户 的 UDP 客户 /服务 器 小 结 


其 中 只 有 一 个 服务 器 进程 ， 它 仅 有 的 单个 套 接 字 用 于 接收 所 有 到 达 的 数据 报 并 发 回 所 有 的 
响应 。 该 套 接 字 有 一 个 接收 缓冲 区 用 来 存放 所 到 达 的 数据 报 。 

图 8-3 中 的 main 函 数 是 协议 相关 的 ( 它 创 建 一 个 AF_INET 协 议 的 套 接 字 ,分 配 并 初始 化 一 个 
IPv4 套 接 字 地 址 结构 )， 而 Gg_echo 函 数 是 协议 无 关 的 。dg_echo 协 议 无 关 的 理由 如 下 : 调用 者 
《在 我 们 的 例子 中 为 main 函 数 ) 必须 分 配 一 个 正确 大 小 的 套 接 字 地 址 结构 ， 且 指向 该 结构 的 指 
针 和 该 结构 的 大 小 都 必须 作为 参数 传递 给 dg_echo。 Gg_echo 绝 不 查看 这 个 协议 相关 结构 的 内 
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容 ， 而 是 简单 地 把 一 个 指向 该 结构 的 指针 传递 给 recvfrom 和 sendto。recvfrom 返 回 时 把 客户 
的 下 地 址 和 端口 号 填 入 该 结构 ， 而 随后 作为 目的 地 址 传递 给 senato 的 又 是 同一 个 指针 
(pcliaddr), COT RON TE RES: 


———— AL 


8.5 UDP 回 射 客户 程序 : main 函数 
图 8-7 给 出 了 UDP 客 户 程序 的 main 函 数 。 








—— udpcliserv/udpcli01.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd; 
6 struct sockaddr in servaddr; 
7 if (argc !- 2) 
8 err quit("usage: udpcli «IPaddress»"); 
9 bzero(&servaddr, sizeof(servaddr)); 
10 servaddr.sin family = AF INET; 
11 Servaddr.sin port = htons(SERV PORT); 
12 Inet pton(AF INET, argv[1], &servaddr.sin addr); 
13 Sockfd = Socket(AF INET, SOCK DGRAM, 0); 
14 dg cli(stdin, sockfd, (SA *) &servaddr, sizeof(servaddr)); 
15 exit(0); 
16 ) 

udpcliserv/udpcli01.c 





图 8-7 ”UDP 回 射 客户 程序 
把 服务 器 地 址 填 入 套 接 字 地 址 结构 


9-12 ”把 服务 器 的 IP 地 址 和 端口 号 填 入 一 个 IPv4 的 套 接 字 地 址 结构 。 该 结构 将 传递 给 dg_cl1i 


函数 ， 以 指明 数据 报 将 发 往 何 处 。 
13-14 创建 一 个 UDP 套 接 字 ， 然 后 调用 dag_cli。 


Men teen mA 


8.6 UDP 回 射 客 户 程序 , dg cli 函数 
图 8-8 给 出 了 dg_cli 函 数 ， 它 执行 客户 的 大 部 分 处 理工 作 。 





一 一 -一 一 一 一 一 一 一 一 一 /iodg cli.c 

1 #include "unp.h" 
2 void 
3 dg Cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
4 ít 
5 int n; 
6 char sendline[MAXLINE], recvline[MAXLINE + 1]; 
7 while (Fgets(sendline, MAXLINE, fp) != NULL) ( 
8 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
9 n - Recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL); 
10 recvline(n] = 0; /* null terminate */ 
11 Fputs(recvline, stdout); 
12 } 
13 } 

一 一 —————— —— — — —— —lb/dg. cli.c 


图 8-8 dg_cli®M: 客户 处 理 循环 
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7-12 客户 处 理 循环 中 有 四 个 步骤 : 使 用 fgets 从 标准 输入 读 入 一 个 文本 行 ， 使 用 sendto 将 
该 文本 行 发 送 给 服务 器 ， 使 用 recvfrom 读 回 最 务 器 的 回 射 ， 使 用 fputs 把 回 射 的 文本 
行 显 示 到 标准 输出 。 

我 们 的 客户 尚未 请 求 内 核 给 它 的 套 接 字 指 派 一 个 临时 端口 。( 对 于 TCP 客 户 而 言 , 我 们 说 过 
connect 调 用 正 是 这 种 指派 发 生 之 处 。) 对 于 一 个 UDP 套 接 字 , 如 果 其 进程 首次 调用 senato 时 它 
没有 绑 定 一 个 本 地 端口 ， 那 么 内 核 就 在 此 时 为 它 选择 一 个 临时 端口 。 跟 TCP 一 样 ， 客 户 可 以 显 
式 地 调用 bind， 不 过 很 少 这 样 做 。 

注意 ， 调 用 recvfrom 指 定 的 第 五 和 第 六 个 参数 是 空 指针 。 这 告知 内 核 我们 并 不 关心 应 答 数 
据 报 由 谁 发 送 。 这 样 做 存在 一 个 风险 : 任何 进程 不 论 是 在 与 本 客户 进程 相同 的 主机 上 还 是 在 不 
同 的 主机 上 ， 都 可 以 向 本 客户 的 耳 地 址 和 端口 发 送 数据 报 ， 这 些 数据 报 将 被 客户 读 入 并 被 认为 
是 服务 器 的 应 答 。 我 们 将 在 8.8 节 解决 这 个 问题 。 

与 服务 器 的 dg_echo 函 数 一 样 ， 客 户 的 Gg_c1li 函 数 也 是 协议 无 关 的 ， 不 过 客户 的 main 函 数 
是 协议 相关 的 。main 函 数 分 配 并 初始 化 一 个 某 个 协议 类 型 的 套 接 字 地 址 结构 ， 并 把 指向 该 结构 
的 指针 及 该 结构 的 大 小 传递 给 dg_cli。 


8.7 ”数据 报 的 丢失 


我 们 的 UDP 客 户 /服务 器 例子 是 不 可 靠 的 。 如 果 一 个 客户 数据 报 丢 失 ( 辟 如 说 ,被 客户 主机 
与 服务 器 主机 之 间 的 某 个 路 由 器 丢弃 )， 客 户 将 永远 阻塞 于 dg_c1i 函 数 中 的 recvfrom 调 用 ， 等 
待 一 个 永远 不 会 到 达 的 服务 器 应 答 。 类 似 地 ， 如 果 客 户 数据 报到 达 服 务 器 ， 但 是 服务 器 的 应 答 
ERI, 客户 也 将 永远 阻塞 于 recvfrom 调 用 。 防止 这 样 永久 阻塞 的 一 般 方法 是 给 客户 的 recvfrom 
调用 设置 一 个 超时 。 我 们 将 在 14.2 节 继续 讨论 这 一 点 。 l 

仅仅 给 recvfrom 亩 用 设置 超时 并 不 是 完整 的 解决 办 法 。 举 例 来 说 ， 如 果 确 实 超时 了 ， 我 们 
将 无 从 判定 超时 原因 是 我 们 的 数据 报 没有 到 达 服 务 器 ， 还 是 服务 器 的 应 答 没 有 回 到 客户 。 如 果 
客户 的 请 求 是 “从 账户 A 往 账户 B 转 一 定数 县 的 钱 ” 而 不 是 我 们 的 简单 回 射 服务 器 例子 ， 那 么 请 
求 丢 失 和 应 答 丢 失 是 极 不 相同 的 。 我 们 将 在 22.5 节 具体 讨论 如 何 给 UDP 客 户 /服务 器 程序 增加 可 
靠 性 。 


8.8 ”验证 接收 到 的 响应 


在 8.6 节 结尾 我 们 提 到 ， 知 道 客户 临时 端口 号 的 任何 进程 都 可 往 客户 发 送 数据 报 ， 而 且 这 些 
数据 报 会 与 正常 的 服务 器 应 答 混杂 。 我 们 的 解决 办 法 是 修改 图 8-8 中 的 recvfrom 调 用 以 返回 数 
据 报 发 送 者 的 IP 地 址 和 端口 号 , 保留 来 自 数 据 报 所 发 往 服务 器 的 应 答 ,， 而 忽略 任何 其 他 数据 报 。 
然而 这 样 做 照样 存在 一 些 缺 陷 ， 我 们 马上 就 会 看 到 。 

我 们 首先 把 客户 程序 的 main 函 数 《〈 图 8-7) 改 为 使 用 标准 回 射 服务 器 〈 图 2-13 )。 这 只 需 把 
以 下 赋值 语句 

servaddr.sin port = htons(SERV PORT); 
替换 为 


servaddr.sin port = htons(7); 


这 样 ， 我 们 的 客户 就 可 以 使 用 任何 运行 标准 回 射 服务 器 的 主机 了 。 
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我 们 接着 重 写 ag_c1li 函 数 以 分 配 男 一 个 套 接 字 地 址 结构 用 于 存放 由 recvfrom 返 回 的 结 


构 ， 如 图 8-9 所 示 。 


-一 udpcliserv/dgcliaddr.c 
1 #include "unp.h" 
2 void 
3 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
4 ( 
5 int n; 
6 char sendline[MAXLINE], recvline[MAXLINE + 1]; 
7 Socklen t len; 
8 struct sockaddr *preply_addr; 
9 preply_addr = Malloc(servlen); 
10 while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 
11 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
12 len - servlen; 
13 n = Recvfrom(sockfd, recvline, MAXLINE, 0, preply_addr, &len); 
14 if (len !- servlen || memcmp(pservaddr, preply addr, len) !- 0) ( 
15 printf("reply from $s (ignored)\n", Sock ntop(preply, addr, len)); 
16 continue; 
17 } 
18 recvline[n] = 0; /* null terminate */ 
19 Fouts(recvline, stdout); 
20 
21 } 


— — ~ — — —dudpcliserv/dgcliaddr.c 
图 8-9 ”验证 返回 的 套 接 字 地 址 的 ag_cii 函 数 版 本 


分 配 另 一 个 套 接 字 地 址 结构 | 
9 ”我 们 调用 malloc 来 分 配 另 一 个 套 接 字 地 址 结构 。 注 意 sg_cli 函 数 仍然 是 协议 无 关 的 ， 


因为 我 们 并 不 关心 所 处 理 套 接 字 地 址 结构 的 类 型 , 而 只 是 在 malloc 调 用 中 使 用 其 大 小 。 


比较 返回 的 地 址 
12-18 在 recvfrom 的 调用 中 ， 我 们 通知 内 核 返 回 数据 报 发 送 者 的 地 址 。 我 们 首先 比较 由 


recvfrom 在 值 -结果 参数 中 返回 的 长 度 ， 然 后 用 memcmp 比 较 套 接 字 地 址 结构 本 身 。 


我 们 在 3.2 节 说 过 ， 即 使 套 接 字 地 址 结构 包含 一 个 长 度 字 段 ， 我 们 也 不 必 设 置 或 检查 它 。 
然而 此 处 memcmp 比 较 两 个 套 接 字 地 址 结构 中 的 每 个 数据 字 节 ， 而 内 核 返 回 套 接 字 地 址 结构 
时 ， 其 中 长 度 字段 是 设置 的 ; 因此 对 于 本 例 ， 与 之 比较 的 另 一 个 套 接 字 地 址 结构 也 必须 预先 
设置 其 长 度 字段 ， 否 则 ，memcmp 将 比较 一 个 值 为 0 的 字 节 ( 因为 没有 设置 长 度 字段 ) 和 一 个 
值 为 16 的 字 节 (假设 具体 为 sockaddr_in 结 构 )， 结 果 自 然 不 匹配 .。 


如 果 服 务 器 运行 在 一 个 只 有 单个 IP 地 址 的 主机 上 ， 那 么 这 个 新 版 本 的 客户 工作 正常 。 然 而 
如 果 服 务 器 主机 是 多 宿 的 ， 该 客户 就 有 可 能 失败 。 我 们 针对 有 两 个 接口 和 两 个 人 P 地 址 的 主机 
freebsd4 运 行 本 客户 程序 。 


macosx % host freebsd4 

freebsd4.unpbook.com has address 172.24.37.94 
freebsd4 -unpbook.com has address 135.197.17.100 
macosx $ udpcli02 135.197.17.100 


hello 


8.9 ”服务 器 进程 未 运行 193 





reply from 172.24.37.94:7 (ignored) 


reply from 172.24.37.94:7 (ignored) 


我 们 指定 的 服务 器 了 地 址 不 与 客户 主机 共享 同一 个 子 网 。 


这 样 指定 服务 器 IP 地 址 通常 是 允许 的 . "大 多 数 IP 实 现 接受 目的 地 址 为 本 主机 任 一 了 地 址 
的 数据 报 ， 而 不 管 数 据 报 到 达 的 接口 (TCPv2 第 217 ~ 219 页 ). RFC 1122 [ Braden 1989 ] 称 之 
为 弱 端 系统 模型 ( weak end system model )。 如 果 一 个 系统 实现 的 是 该 RFC 中 所 说 的 强 端 系统 
模型 ( strong end system model )， 那 么 它 将 只 接受 到 达 接 口 与 目的 地 址 一 致 的 数据 报 。 


recvfrom 返 回 的 于 地 址 (UDP 数 据 报 的 源 下 地 址 〉 不 是 我 们 所 发 送 数 据 报 的 目的 人 P 地 址 。 
当 服 务 器 发 送 应 答 时 ， 目 的 人 地址 是 172.24.37.94。 主 机 freepbsd4 内 核 中 的 路 由 功能 为 之 选择 
172.24.37.94 作 为 外 出 接口 。 既 然 服务 器 没有 在 其 套 接 字 上 绑 定 一 个 实际 的 人 地址 (服务 器 绑 定 
在 其 套 接 字 上 的 是 通 配 亿 地 址 , 这 一 点 可 通过 在 freebpsd4 上 运行 hetstat 来 验证 )， 因此 内 核 将 
为 封装 这 些 应 答 的 IP 数 据 报 选择 源 地 址 。 选 为 源 地 址 的 是 外 出 接口 的 主 卫 地址 (TCPv2 第 232 一 
233 页 )。 还 有 ， 既 然 它 是 外 出 接口 的 主 耻 地址 ， 如 果 我 们 指定 发 送 数据 报到 该 接口 的 某 个 非 主 
PP 地 址 《〈 即 一 个 IP 别 名 )， 那 么 也 将 导致 图 8-9 版 本 客户 程序 的 测试 失败 。 
-个 解决 办 法 是 : 得 到 由 recvfrom 返 回 的 IP 地 址 后 ， 窜 户 通 过 在 DNS (第 11 章 ) 中 查找 服 
务 器 主机 的 名 字 来 验证 该 主机 的 域名 (而 不 是 它 的 人 P 地 址 )。 另 一 个 解决 办 法 是 : UDP 服务 器 给 
服务 器 主机 上 配置 的 每 个 IP 地 址 创建 一 个 套 接 字 ， 用 bina 捆 绑 每 个 人 P 地 址 到 各 自 的 套 接 字 ， 然 
后 在 所 有 这 些 套 接 字 上 使 用 select (等 待 其 中 任何 一 个 变 得 可 读 )， 再 从 可 读 的 套 接 字 给 出 应 
答 。 既 然 用 于 给 出 应 答 的 套 接 字 上 绑 定 的 人 P 地 址 就 是 客户 请 求 的 目的 人 P 地 址 (否则 该 数据 报 不 
会 被 投递 到 该 套 接 字 )， 这 就 保证 应 答 的 源 地 址 与 请 求 的 目的 地 址 相同 。 我 们 将 在 22.6 节 给 出 一 
个 这 样 的 例子 。 


在 多 宿 Solaris 系 统 上 , 服务 器 应 答 的 源 下 地 址 就 是 客户 请 求 的 目的 于 地 址 . 本 节 讲 述 的 情 
形 针对 源 自 Berkeley 的 实现 ， 这 些 实现 基于 外 出 接口 选择 源 IP 地 址 . 


"——————————ÓMÓMM——BÓÓÓ TI A be e 


我 们 下 一 个 要 检查 的 情形 是 在 不 启动 服务 器 的 前 提 下 启动 客户 。 如 果 我 们 这 么 做 后 在 客户 
上 键入 一 行文 本 ， 那 么 什么 也 不 发 生 。 客 户 永远 阻塞 于 它 的 recvfrom 调 用 ， 等 待 一 个 永 不 出 现 
的 服务 器 应 答 。 然 而 这 是 一 个 很 好 的 例子 ， 它 要 求 我 们 更 多 地 了 解 底层 协议 以 理解 网 络 应 用 进 
程 将 发 生 什 么 。 

首先 ， 我 们 在 主机 macosx 上 启动 tcpdump， 然 后 在 同一 个 主机 上 启动 客户 ， 指 定 主机 
freebsd4 为 服务 器 主机 。 接 着 ， 我 们 键入 一 行文 本 ， 不 过 这 行文 本 没有 被 回 射 。 


macosx % udpcli01 172.24.37.94 
hello, world 我 们 键入 这 一 行 
但 没有 任何 内 容 回 射 回来 








图 8-10 给 出 了 ccpaump 的 输出 。 


CD 这 句 话 是 针对 本 例子 所 用 的 主机 和 网 络 环境 而 言 的 ， 其 中 隐 含 假设 从 客户 主机 到 服务 器 主机 非 共 享 子 网 IP 地 址 
的 路 径 与 从 客户 主机 到 服务 器 主机 共享 子 网 IP 地 址 的 路 径 一 致 。 通 常情 形 下 这 两 条 路 经 不 一 定 一 致 。 不 注意 到 
这 一 点 ， 作 者 随后 的 解释 将 难以 理解 。 一 一 译 者 注 
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0.0 arp who-has freebsd4 tell macosx 

0.003576 ( 0.0036) arp reply freebsd4 is-at 0:40:5:42:d6:de 

0.003601 ( 0.0000) macosx.51139 > freebsd4.9877: udp 13 

0.009781 ( 0.0062) freebsd4 > macosx: icmp: freebsd4 udp port 9877 unreachable 


图 8-10” 当 服务 器 主机 .上 未 启动 服务 器 进程 时 tcpqump 的 输出 


首先 我 们 注意 到 ， 在 客户 主机 能 够 往 服 务 器 主机 发 送 那 个 UDP 数 据 报 之 前 ， 需 要 一 次 ARP 
请 求 和 应 答 的 交换 。( 我 们 把 这 个 交换 保留 在 ccpdump 的 输出 中 ， 是 为 了 强调 在 耶 数 据 报 可 发 往 
本 地 网 络 上 另 一 个 主机 或 路 由 器 之 前 ， 还 是 有 可 能 出 现 ARP 请 求 -应 答 的 。) 

我 们 从 第 3 行 看 到 客户 数据 报 发 出 ， 然 而 从 第 4 行 看 到 ， 服 务 器 主机 响应 的 是 一 个 “port 
unreachable”( 端 口 不 可 达 ) ICMP 消 息 。( 长 度 13 是 12 个 字符 加 换行 符 。 不 过 这 个 ICMP 错 误 不 
返回 给 客户 进程 ， 其 原因 我 们 稍 后 讲述 。 客 户 永 远 阻 塞 于 图 8-8 中 的 recvfrom 调 用 。 我 们 还 指 
出 ICMPv6 也 有 端口 不 可 达 错 误 类 型 ， 类 似 于 ICMPv4〔 见 图 A-15 和 图 A-16)， 因 此 这 里 讨论 的 结 
果 对 于 IPv6 也 类 似 。 

我 们 称 这 个 ICMP 错 误 为 异步 错误 (asynchronous error). 该 错误 由 senato 引 起 , 但 是 sendto 
本 身 却 成 功 返 回 。 回 顾 2.11 节 ， 我 们 知道 从 UDP 输出 操作 成 功 返回 仅仅 表示 在 接口 输出 队列 中 
具有 存放 所 形成 IP 数 据 报 的 空间 。 该 ICMP 错 误 直到 后 来 才 返 回 ( 图 8-10 所 示 为 4ms 之 后 )， 这 就 
是 称 其 为 异步 的 原因 。 

一 个 基本 规则 是 : 对 于 一 个 UDP 套 接 字 ， 由 它 引 发 的 异步 错误 却 并 不 返回 给 它 ， 除 非 它 已 
连接 。 我们 将 在 8.11 节 讨论 如 何 给 UDP 套 接 字 调用 connect。 很 少 有 人 明白 套 接 字 最 初 实现 时 为 
什么 做 此 设计 决策 。( 实 现 内 涵 在 TCPv2 第 748 一 749 页 讨论 。) 

考虑 在 单个 UDP 套 接 字 上 接连 发 送 3 个 数据 报 给 3 个 不 同 的 服务 器 ( 即 3 个 不 同 的 耻 地 址 ) 的 
一 个 UDP 客户 。 该 客户 随后 进入 一 个 调用 recvfrom 读 取 应 答 的 循环 。 其 中 有 2 个 数据 报 被 正确 
递送 (也 就 是 说 ，3 个 主机 中 有 2 个 在 运行 服务 器 )， 但 是 第 三 个 主机 没有 运行 服务 器 。 第 三 个 主 
机 于 是 以 一 个 ICMP 端 口 不 可 达 错 误 响 应 。 这 个 ICMP 出 错 消息 包含 引起 错误 的 数据 报 的 IP 首 部 
和 UDP 首部 。(ICMPv4 和 ICMPv6 出 错 消息 总 是 包含 PP 首部 和 所 有 的 UDP 首部 或 部 分 TCP 首 部 ， 
以 便 其 接收 者 确定 由 哪个 套 接 字 引发 该 错误 ， 如 图 28-21 和 图 28-22 所 示 。) 发 送 这 3 个 数据 报 的 
客户 需要 知道 引发 该 错误 的 数据 报 的 目的 地 址 以 区 分 究竟 是 哪 一 个 数据 报 引发 了 错误 。 但 是 内 
核 如 何 把 该 信息 返回 给 客户 进程 昵 ? recvfromH 可 以 返回 的 信息 仅 有 errno 值 ， 它 没有 办 法 返回 
出 错 数据 报 的 目的 耳 地 址 和 目的 UDP 端口 号 。 因 此 做 出 决定 : 仅 在 进程 已 将 其 UDP 套 接 字 连接 
到 恰恰 一 个 对 端 后 ， 这 些 异 步 错 误 才 返回 给 进程 。 

只 要 SO_BSDCOMPAT 套 接 字 选 项 没有 开启 ，Linux 甚 至 对 未 连接 的 套 接 字 也 返回 大 多 数 
ICMP “destination unreachable” ( 目的 地 不 可 达 ) 错误 .图 A-15 中 除 代码 为 0、1、4、5、11 
和 12 之 外 的 所 有 ICMP 目 的 地 不 可 达 错 误 均 被 返回 。 

我 们 将 在 28.7 节 再 次 讨论 UDP 套 接 字 上 异步 错误 的 这 个 问题 ， 并 给 出 一 个 使 用 我 们 自己 
的 守护 进程 获取 未 连接 套 接 字 上 这 些 错 误 的 简便 方法 。 


Awe 


8.10 UDP 程序 例子 小 结 
图 8-11 以 圆 点 的 形式 给 出 了 在 客户 发 送 UDP 数据 报时 必须 指定 或 选择 的 四 个 值 。 
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socket {) 
sendto() 





客户 临时 










口 众所周知 端口 号 


由 了 选择 的 
客户 人 P 地 址 
〈 基 于 路 由 ) 










指定 服务 器 


图 8-11 从 客户 角度 总 结 UDP 客 户 / 服 务 器 


客户 必须 给 sendto 调 用 指定 服务 器 的 人 P 地 址 和 端口 号 。 一 般 来 说 ， 客 户 的 下 地 址 和 端口 号 
都 由 内 核 自 动 选择 ， 尽 管 我 们 提 到 过 ， 客 户 也 可 以 调用 binad 指 定 它们 。 在 客户 的 这 两 个 值 由 内 
核 选择 的 情形 下 我 们 也 提 到 过 ， 客 户 的 临时 端口 是 在 第 一 次 调用 sendto 时 一 次 性 选 定 ， 不 能 改 
变 ; 然而 客户 的 也 地 址 却 可 以 随 客户 发 送 的 每 个 UDP 数据 报 而 变动 〈 假 设 客户 没有 捆绑 一 个 具 
体 的 下 地 址 到 其 套 接 字 上 )。 其 原因 如 图 8-11 所 示 : 如 果 客 户主 机 是 多 宿 的 ， 客 户 有 可 能 在 两 个 
目的 地 之 间 交 替 选 择 ， 其 中 一 个 由 左边 的 数据 链 路 外 出 ， 另 一 个 由 右边 的 数据 链 路 外 出 。 在 这 
种 最 坏 的 情形 下 ， 由 内 核 基 于 外 出 数据 链 路 选择 的 客户 IP 地 址 将 随 每 个 数据 报 而 改变 。 

如 果 客 户 捆绑 了 一 个 IP 地 址 到 其 套 接 字 上 ， 但 是 内 核 决定 外 出 数据 报 必须 从 另 一 个 数据 链 
路 发 出 ， 那 么 将 会 发 生 什 么 ”这 种 情形 下 ，IP 数 据 报 将 包含 一 个 不 同 于 外 出 链 路 亿 地 址 的 源 IP 
地 址 (见习 题 8.6)。 

图 8-12 给 出 了 同样 的 四 个 值 ， 但 是 是 从 服务 器 的 角度 出 发 的 。 

服务 器 可 能 想 从 到 达 的 下 数据 报 上 取得 至 少 四 条 信息 : 源 IP 地 址 、 目 的 IP 地 址 、 源 端口 号 
和 目的 端口 号 。 图 8-13 给 出 了 从 TCP 服 务 器 或 UDP 服 务 器 返回 这 些 信息 的 函数 调用 。 

TCP 服 务 器 总 是 能 便捷 地 访问 已 连接 套 接 字 的 所 有 这 四 条 信息 ， 而 且 这 四 个 值 在 连接 的 整 
个 生命 期 内 保持 不 变 。 然 而 对 于 UDP 套 接 字 ， 目 的 卫 地 址 只 能 通过 为 IPv4 设 置 TP_RECVDSTADDR 
套 接 字 选 项 〈 或 为 ITPv6 设 置 TPV6_PKTINFO 套 接 字 选 项 ) 然后 调用 recvmsg〔 而 不 是 recvfrom) 
取得 。 由 于 UDP 是 无 连接 的 ， 因 此 目的 了 下地 址 可 随 发 送 到 服务 器 的 每 个 数据 报 而 改变 。UDP 服 
务 器 也 可 接收 目的 地 址 为 服务 器 主机 的 某 个 广播 地 址 或 多 播 地 址 的 数据 报 ， 这 些 我 们 将 在 第 20 
章 和 第 21 章 中 讨论 。 我 们 将 在 22.2 节 讨论 recvmsg 函 数 之 后 ， 展 示 如 何 确定 一 个 UDP 数据 报 的 目 
的 地 址 。 
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socket () 
recvfrom() bind() 
返回 客户 的 指定 服务 器 的 
众所周知 端口 号 





指定 本 地 IP 地 址 


返回 客户 的 
C " 般 为 通 配 地 址 》 


IP 





图 8-12 ”从 服务 器 角度 总 结 UDP 客 户 / 服 务 器 


KAET POR 


WP Ha hl: accept recvfrom 


源 端口 号 accept recvfrom 
日 的 人 PP 地址 getsockname recvmsg 
目的 端口 号 getsockname getsockname 


图 8-13 ”服务 器 可 从 到 达 的 IP 数 据 报 中 获取 的 信息 





8.11 UDP $ connect 函数 
在 8.9 节 结尾 我 们 提 到 ， 除 非 套 接 字 已 连接 ， 否 则 异步 错误 是 不 会 返回 到 UDP 套 接 字 的 。 R 
们 确实 可 以 给 UDP 套 接 字 调 用 connect (4.3 节 )， 然 而 这 样 做 的 结果 却 与 TCP 连 接 大 相 径 庭 : 没 


有 三 路 握手 过 程 。 内 核 只 是 检查 是 否 存 在 立即 可 知 的 错误 (例如 一 个 显然 不 可 达 的 目的 地 )， 记 
录 对 端的 IP 地 址 和 端口 号 ( 取 自 传递 给 connect 的 套 接 字 地 址 结构 ), 然后 立即 返回 到 调用 进程 。 


给 connect 函 数 重 载 (overload) UDP 套 接 字 的 这 种 能 力 容易 让 人 混淆。 如 果 使 用 约定 ， 
令 sockname 是 本 地 协议 地 址 ，peername 是 外 地 协议 地 址 ， 那 么 更 好 的 名 字 本 该 是 
setpeername。 类 似 地 ，bind 函 教 更 好 的 名 字 本 该 是 secsockname。 


有 了 这 个 能 力 后 ， 我 们 必须 区 分 

e 未 连接 UDP 套 接 字 (unconnected UDP socket)， 新 创建 UDP 套 接 字 默认 如 此 ; 

e 已 连接 UDP 套 接 字 (connected UDP socket)， 对 UDP 套 接 字 调 用 connect 的 结果 。 

对 于 已 连接 UDP 套 接 字 ， 与 默认 的 未 连接 UDP 套 接 字 相 比 ， 发 生 了 三 个 变化 。 

(1) 我 们 再 也 不 能 给 输出 操作 指定 目的 IP 地 址 和 端口 号 。 也 就 是 说 ， 我 们 不 使 用 sendto， 
而 改 用 write 或 send。 写 到 已 连接 UDP 套 接 字 上 的 任何 内 容 都 自动 发 送 到 由 connect 指 定 的 协 
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议 地 址 〈 例 如 耳 地 址 和 端口 号 )。 


其 实 我 们 可 以 给 已 连接 UDP 套 接 字 调 用 sendto， 但 是 不 能 指定 目的 地 址 。sendto 的 第 
五 个 参数 (指向 指明 目的 地 址 的 套 接 字 地 址 结构 的 指针 ) 必须 为 空 指针 ， 第 六 个 参数 ( 该 套 
接 字 地 址 结构 的 大 小 ) 应 该 为 0。POSIX 规 范 指 出 当 第 五 个 参数 是 空 指针 时 ， 第 六 个 参数 的 取 
值 就 不 再 考虑 。 


(2) 我 们 不 必 使 用 recvfrom 以 获悉 数据 报 的 发 送 者 ， 而 改 用 reada、recv 或 recvmsg。 在 一 
个 已 连接 UDP 套 接 字 上 ， 由 内 核 为 输入 操作 返回 的 数据 报 只 有 那些 来 自 connect 所 指定 协议 地 
址 的 数据 报 。 目 的 地 为 这 个 已 连接 UDP 套 接 字 的 本 地 协议 地 址 (例如 IP 地 址 和 端口 号 )， 发 源 地 
却 不 是 该 套 接 字 早先 connect 到 的 协议 地 址 的 数据 报 ， 不 会 投递 到 该 套 接 字 。 这 样 就 限制 一 个 
已 连接 UDP 套 接 字 能 且 仅 能 与 一 个 对 端 交 换 数 据 报 。 


确切 地 说 ， 一 个 已 连接 UDP 矢 接 字 仅 仅 与 一 个 IP 地 址 交换 数据 报 ， 因 为 connect 到 多 播 
或 广播 地 址 是 可 能 的 。 


(3) 由 已 连接 UDP 套 接 字 引 发 的 异步 错误 会 返回 给 它们 所 在 的 进程 , 而 未 连接 UDP 套 接 字 不 ”|252 
接收 任何 异步 错误 。 
图 8-14 就 4.4BSD 总 结 了 上 列 第 一 点 。 


| sendto ___sendto 


图 8-14 TCPAIUDPHRE: 可 指定 目的 地 协议 地 址 吗 ? 














POSIX 规 范 指出 ， 在 未 连接 UDP 和 套 接 字 上 不 指定 目的 地 址 的 输出 操作 应 该 返回 


ENOTCONN， 而 不 是 EDESTADDRREQ。 


图 8-15 总 结 了 我 们 给 已 连接 UDP 套 接 字 归纳 的 三 点 。 


应 用 程序 


从 connect 存 储 对 方 
22? 一-- 的 IP 地 址 和 端口 号 
来 自 其 他 IP 地 址 和 /或 UDP 数 据 报 
端口 号 的 UDP 数 据 报 





UDP 数 据 报 
图 8-15 ”已 连接 UDP 套 接 字 


应 用 进程 首先 调用 connect 指 定 对 端的 IP 地 址 和 端口 号 ， 然 后 使 用 read 和 write 与 对 端 进 
程 交 换 数据 。 
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来 自任 何其 他 人 P 地 址 或 端口 的 数据 报 ( 图 8-15 中 我 们 用 “???” 表 示 ) 不 投递 给 这 个 已 连接 
套 接 字 ， 因 为 它们 要 么 源 IP 地 址 要 么 源 UDP 端 口 不 与 该 套 接 字 connect 到 的 协议 地 址 相 匹 配 。 
这 些 数据 报 可 能 投递 给 同一 个 主机 上 的 其 他 某 个 UDP 套 接 字 。 如 果 没 有 相 匹 配 的 其 他 套 接 字 ， 
UDP 将 丢弃 它们 并 生成 相应 的 ICMP 端 口 不 可 达 错 误 。 

作为 小 结 ， 我 们 可 以 说 UDP 客户 进程 或 服务 器 进程 只 在 使 用 自己 的 UDP 套 接 字 与 确定 的 唯 
一 对 端 进行 通信 时 ， 才 可 以 调用 connect。 调 用 connect 的 通常 是 UDP 客户 ,不 过 有 些 网 络 应 用 
中 的 UDP 服务 器 会 与 单个 客户 长 时 间 通 信 (如 TFTP)， 这 种 情况 下 ， 客 户 和 服务 器 都 可 能 调用 
connecte 


DNS 提供 了 另 一 个 例子 ， 如 图 8-16 所 示 。 


DNS DNS DNS DNS 
a a 


connect mL 不 能 connect 不 能 connect 不 能 connect 
(被 配置 为 上 只 使 (被 配置 为 使 用 
用 一 个 服务 器 ) 两 个 服务 器 ) 


图 8-16 DNS 客户 、 服 务 器 与 connect 函 数 的 例子 


通常 通过 在 /etc/resolv.conf 文 件 中 列 出 服务 器 主机 的 下 地址 ， 一 个 DNS 客 户主 机 就 能 
被 配置 成 使 用 一 个 或 多 个 DNS 服 务 器 。 如 果 列 出 的 是 单个 服务 器 主机 (图 中 最 左边 的 方 框 )， 客 
户 进程 就 可 以 调用 connect， 但 是 如 果 列 出 的 是 多 个 服务 器 主机 (图 中 从 左边 数 第 二 个 方 框 )， 
客户 进程 就 不 能 调用 connect。 另 外 DNS 服 务 器 进程 通常 是 处 理 客户 请 求 的 ， 因 此 服务 器 进程 
不 能 调用 connect。 


8.11.1 给 一 个 UDP 套 接 字 多 次 调用 connect 


拥有 一 个 已 连接 UDP 套 接 字 的 进程 可 出 于 下 列 两 个 目的 之 一 再 次 调用 connect: 

e 指定 新 的 IP 地 址 和 端口 号 ; 

e ITER. 

第 一 个 目的 〈 即 给 一 个 已 连接 UDP 套 接 字 指 定 新 的 对 端 ) 不 同 于 TCP 套 接 字 中 connect 的 
使 用 对 于 TCP 套 接 字 ，connect 只 能 调用 一 次 。 - 

为 了 断 开 一 个 已 UDP 套 接 字 连 接 ， 我 们 再 次 调用 connect 时 把 套 接 字 地 址 结构 的 地 址 族 成 
là (对 于 IPv4 为 sin_family， 对 于 IPV6 为 sin6_family) 设置 为 AF_UNSPEC。 这 么 做 可 能 会 返 
回 一 个 EAFNOSUPPORT 错 误 〈TCPv2 第 736 页 )， 不 过 没有 关系 。 使 套 接 字 断 开 连 接 的 是 在 已 连接 
UDP 套 接 字 上 调用 connect 的 进程 (TCPv2 第 787 一 788 页 )。 


各 种 Unix 变 体 断 开 套 接 字 上 连接 的 方式 存在 差异 ， 同 样 的 方法 可 能 适合 某 些 系统 而 不 适 
合 其 他 系统 。 举 例 来 说 ， 以 空 的 套 接 字 地 址 结构 指针 调用 connect 的 方法 仅仅 适合 某 些 系统 
(而 在 另 一 些 系统 上 ， 要 求 第 三 个 参数 即 套 接 字 地 址 结构 长 度 为 非 0)。POSIX 规 范 和 BSD 手 册 
页 面 在 此 帮助 不 大 ， 只 是 提 到 必须 使 用 一 个 空地 址 (nulladdress )， 而 根本 没有 提 到 出 错 返 回 
值 (其 至 成 功 返 回 值 也 没有 提 到 ), 最 便于 移植 的 解决 办 法 就 是 清 零 一 个 地 址 结构 后 把 它 的 地 
址 族 成 员 设 置 为 ARF_UNSPEC， 再 把 它 传递 给 connect。 

另 一 个 存在 差异 的 地 方 是 断 开 连接 前 后 套 接 字 本 地 绑 定 地 址 的 取 值 。AIX 保 留 被 选中 的 
本 地 IP 地 址 和 端口 号 ， 即 使 它们 起 源 于 隐 式 捆绑 。FreeBSD 和 Linux 把 本 地 JP 地址 设置 回 全 0， 
即使 早先 调用 过 bind， 端 口号 也 保持 不 变 。Solaris 在 隐 式 捆绑 时 把 本 地 JP 地 址 设置 回 全 0， 在 
显 式 调 用 过 bind 时 保持 IP 地 址 不 变 。 
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8.11.2 性 能 


当 应 用 进程 在 一 个 未 连接 的 UDP 套 接 字 上 调用 sendto 时 ， 源 自 Berkeley 的 内 核 暂 时 连接 该 
套 接 字 ， 发 送 数据 报 ， 然 后 断 开 该 连接 (TCPv2 第 762 一 763 页 )。 在 一 个 未 连接 的 UDP 套 接 字 上 
给 两 个 数据 报 调用 senato 函 数 于 是 涉及 内 核 执行 下 列 6 个 步骤 ; 

e 连接 套 接 字 ; 

。 输出 第 一 个 数据 报 ; 

e. 上 断 开 套 接 字 连 接 ; 

e 连接 套 接 字 ; 

e. 输出 第 二 个 数据 报 ; 

e 新 开 套 接 字 连 接 。 


另 一 个 考虑 是 搜索 路 由 表 的 次 数 。 第 一 次 临时 连接 需 为 目的 耳 地 址 搜索 路 由 表 并 高 速 缓 
存 这 条 信息 。 第 二 次 临时 连接 注意 到 目的 地 址 等 于 已 高 速 缓存 的 路 由 表 信息 的 目的 地 (我 们 假 
设 这 两 个 senGto 调 用 有 相同 的 目的 地 址 ), 于 是 就 不 必 再 次 查找 路 由 表 ( TCPv2 第 737 ~ 738 XL. 


当 应 用 进程 知道 自己 要 给 同一 目的 地 址 发 送 多 个 数据 报时 ， 显 式 连接 套 接 字 效 率 更 高 。 调 
用 connect 后 调用 两 次 write 涉及 内 核 执行 如 下 步骤 ; 

e 连接 套 接 字 ; 

。 输出 第 一 个 数据 报 ; 

e 输出 第 二 个 数据 报 。 

在 这 种 情况 下 ， 内 核 只 复制 一 次 含有 目的 IP 地 址 和 端口 号 的 套 接 字 地 址 结构 ， 相 反 当 调用 
两 次 senato 时 ， 需 复制 两 次 。[Partridge 和 Pink 1993] 指出 ， 临 时 连接 未 连接 的 UDP 套 接 字 大 约 
会 耗费 每 个 UDP 传输 三 分 之 一 的 开销 。 


8.12 dg cli 函数 (修订 版 ) | E 
现在 我 们 回 到 图 8-8 中 的 ag_cli 函 数 ， 把 它 重 写成 调用 connect。 图 8-17 所 示 为 新 的 函数 。 


— ——- udpcliserv/dgcliconnect.c 


BESIER AE WADA DEEA EEA — ve 








1 #include "unp.h" 


2 void 
3 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen_t servlen) 


4{ 
5 int n; 

6 char sendline[MAXLINE], recvline[MAXLINE + 1]; 
7 Connect (sockfd, (SA *) pservaddr, servlen); 

8 while (Fgets(sendline, MAXLINE, fp) != NULL) { 

9 


Write(sockfd, sendline, strlen(sendline)); 


10 n = Read(sockfd, recvline, MAXLINE); 

11 recvline[n] = 0; /* null terminate */ 
12 Fputs(recvline, stdout); 

13 } 

14 ) 








udpcliserv/dgcliconnect.c 


图 8-17 调用 connect 的 Gg_c1li 函 数 


N 
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所 做 的 修改 是 调用 connect， 并 以 read 和 write 调 用 代替 sendto 和 recvfrom 调 用 。 该 函数 
不 查看 传递 给 connect 的 套 接 字 地 址 结构 的 内 容 ， 因 此 它 仍然 是 协议 无 关 的 。 图 8-7 中 的 客户 程 
序 main 函 数 保持 不 变 。 

在 主机 macosx 上 运行 该 程序 , 并 指定 主机 freebsa4 的 IP 地 址 〈 它 没有 在 端口 9877 上 运行 相 
应 的 服务 器 程序 )， 我 们 得 到 如 下 输出 : 

macosx $ udpcli04 172.24.37.94 


hello, world 
read error: Connection refused 


我 们 首先 注意 到 ， 当 启动 客户 进程 时 我 们 并 没有 收 到 这 个 错误 。 该 错误 只 是 在 我 们 发 送 第 
一 个 数据 报 给 服务 器 之 后 才 发 生 。 正 是 发 送 该 数据 报 引 发 了 来 自 服 务 器 主机 的 ICMP 错 误 。 然 而 
当 一 个 TCP 客 户 进程 调用 connect， 指 定 一 个 不 在 运行 服务 器 进程 的 服务 器 主机 时 ，connect 
将 返回 同样 的 错误 ， 因 为 调用 connect 会 造成 TCP 三 路 握手 ， 而 其 中 第 一 个 分 节 导 致 服务 器 TCP 
返 送 RST (4.3 节 )。 

图 8-18 给 出 了 tcpdump 的 输出 。 


macosx % tcpdump 
1 0.0 macosx.51139 > freebsd4.9877: udp 13 
2 0.006180 ( 0.0062) freebsd4 » macosx: icmp: freebsd4 udp port 9877 unreachable 


图 8-18 ” 当 运 行 图 8-17 中 程序 时 tcpaump 的 输出 
我 们 还 从 图 A-15 中 看 到 , 该 ICMP 错 误 由 内 核 映 射 成 BcONNREFUSED 错 误 , 对 应 于 由 err_sys 
函数 输出 的 消息 串 :“Connection refused”( 连 接 被 拒绝 )。 
ARE WR, 并非 所 有 内 核 都 能 像 本 节 的 示例 那样 把 ICMP 消 息 返 送 给 已 连接 的 UDP 套 接 字 ， 
一 般 来 说 ， 源 自 Berkeley 的 内 核 返 回 这 种 错误 ， 而 System V 内 核 则 不 。 举 例 来 说 ， 如 果 我 们 在 
一 个 Solaris 2.4 主 机 上 运行 同一 个 客户 程序 ， 并 connect 到 没有 运行 服务 器 的 一 个 主机 上 ， 我 
们 就 可 以 用 tcpdump 观 察 并 验证 服务 器 主机 返回 了 ICMP 端 口 不 可 达 错 误 ， 但 是 客户 的 read 
调用 永 不 返回 .这 个 缺陷 在 Solaris 2.5 中 已 修复 .UnixWare 不 返回 这 种 错误 ,而 AIX、 Digital Unix. 
HP-UX 和 Linux 都 返回 这 种 错误 . 


8.13 UDP 缺乏 流量 控制 u 
现在 我 们 查看 无 任何 流量 控制 的 UDP 对 数据 报 传输 的 影响 。 首 先 ， 我 们 把 ag_c1i 函 数 修改 


为 发 送 固定 数目 的 数据 报 ， 并 不 再 从 标准 输入 读 。 图 8-19 所 示 为 新 的 版 本 ， 它 写 2000 个 1400 字 
节 大 小 的 UDP 数据 报 给 服务 器 。 











udpcliserv/dgcliloop1.c 





#include "unp.h" 


2 Kdefine NDG 2000 /* datagrams to send */ 
#define DGLEN 1400 /* length of each datagram */ 


dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen_t servlen) 


1 

2 

3 

4 void 
5 

6í( 

7 

8 


int ii 
char sendline[DGLEN]; 
9 for (i = 0; i < NDG; i++) ( 
10 Sendto(sockfd, sendline, DGLEN, 0, pservaddr, servlen); 
11 } 
12 } 





> —— udpcliserv/dgcliloop!.c 
图 8-19” 写 固定 数目 的 数据 报到 服务 器 的 9g_c1i 函 数 
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然后 ， 我 们 把 服务 器 程序 修改 为 接收 数据 报 并 对 其 计数 ， 并 不 再 把 数据 报 回 射 给 客户 。 图 
8-20 所 示 为 新 的 ag_echo 函 数 。 当 我 们 用 终端 中 断 键 终止 服务 器 时 (相当 于 向 它 发 送 sSIGINT 信 
号 )， 服 务 器 会 显示 所 接收 到 数据 报 的 数目 并 终止 。 


二 udpcliserv/dgecholoopl.c 
#include "unp.h" 


static void recvfrom int(int); 
static int count; 


void 
dg echo(int sockfd, SA *pcliaddr, socklen t clilen) 
{ 

socklen_t len; 

char mesg [MAXLINE] ; 


Oo veU s Wn T 


wo 


Signal(SIGINT, recvfrom int); 


10 for (;;) fí 

11 len = clilen; 

12 Recvfrom(sockfd, mesg, MAXLINE, 0, pcliaddr, &len); 
13 count ++; 

14 } 

15 } 


16 static void 
17 recvfrom int(int signo) 


18 ( 

19 printf("Mnreceived &d datagrams\n", count); 
20 exit (0); 

21 ) 





- — udpcliserv/dgecholoop1.c 
图 8-20 ”对 接收 到 数据 报 进行 计数 的 sag_echo 函 数 


现在 我 们 在 主机 freebsG 上 运行 服务 器 , 它 是 一 个 慢 速 的 SPARC 工 作 站 ; 在 RS/6000 系 统 aix 
上 运行 客户 ， 两 个 主机 间 以 100 Mbit/s 以 太 网 相连 。 另 外 ,我们 在 服务 器 主机 上 运行 het stat -s 
命令 ， 在 服务 器 启动 前 和 结束 后 各 运行 一 次 ， 因 为 它们 输出 的 统计 数据 将 表明 丢失 了 多 少数 据 
报 。 图 8-21 给 出 了 服务 器 主机 上 的 输出 。 

客户 发 出 2000 个 数据 报 ， 但 是 服务 器 只 收 到 其 中 的 30 人 个， 丢失 率 为 98%。 对 于 服务 器 应 用 
进程 或 客户 应 用 进程 都 没有 给 出 任何 指示 说 这 些 数据 报 已 丢失 .这 证 实 了 我 们 说 过 的 话 , 即 UDP 
没有 流量 控制 并 且 是 不 可 靠 的 。 本 例 表 明 UDP 发 送 端 淹没 其 接收 端 是 轻而易举 之 事 。 

检查 netstat 的 输出 ， 我 们 看 到 服务 器 主机 (而 不 是 服务 器 本 身 〉 接 收 到 的 数据 报 总 数 是 
2000 (73208-71208). “dropped due to full socket buffers”( 因 套 接 字 缓 冲 区 满 而 丢弃 〉 计数 器 的 
值 表示 已 被 UDP 接 收 ， 但 是 因为 接收 套 接 字 的 接收 队列 已 满 而 被 丢弃 的 数据 报 的 数目 (TCPv2 
第 775 页 )。 该 值 为 1970 〈3491-1971)， 它 加 上 由 应 用 进程 输出 的 计数 值 (30) 等 于 服务 器 主机 
接收 到 的 2000 个 数据 报 。 不 幸 的 是 ， 因 套 接 字 缓 冲 区 满 而 丢弃 数据 报 的 netstat 计 数值 是 全 系 
统 范围 的 值 ， 没 有 办 法 确定 具体 影响 到 哪些 应 用 进程 〈 例 如 哪些 UDP 端口 )。 

本 例 中 由 服务 器 接收 的 数据 报 的 数目 是 不 确定 的 。 它 依赖 于 许多 因素 ， 例 如 网 络 负 载 、 客 
户主 机 的 处 理 负载 以 及 服务 器 主机 的 处 理 负载 。 

如 果 我 们 再 次 运行 相同 的 客户 和 服务 器 ， 不 过 这 一 次 让 客户 运行 在 慢 速 的 Sun 主 机 上 ， 让 
服务 器 运行 在 较 快 的 RS/6000 主 机 上 ， 那 就 没有 数据 报 丢 失 。 


aix % udpserv06 
^? 客户 运行 完毕 后 敲 入 中 断 键 


received 2000 datagrams 
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freebsd $ netstat -s -p udp 


udp: 
71208 datagrams received 
0 with incomplete header 
0 with bad data length field 
0 with bad checksum 
0 with no checksum 
832 dropped due to no socket 
16 broadcast/multicast datagrams dropped due to no socket 
1971 dropped due to full socket buffers 
0 not for hashed pcb 
68389 delivered 
137685 datagrams output 
freebsd $ udpserv06 启动 我 们 的 服务 器 
再 在 此 处 运行 客户 
^C 客户 运行 完毕 后 敲 中 断 键 


received 30 datagrams 
freebsd $ netstat -8 -p udp 
udp: 
73208 datagrams received 
0 with incomplete header 
0 with bad data length field 
0 with bad checksum 
0 with no checksum 
832 dropped due to no socket 
16 broadcast/multicast datagrams dropped due to no socket 
3941 dropped due to full socket buffers 
0 not for hashed pcb 
68419 delivered 
137685 datagrams outpuc 


图 8-21 服务 器 主机 上 的 输出 


UDP 套 接 字 接 收 缓冲 区 


由 UDP 给 某 个 特定 套 接 字 排 队 的 UDP 数据 报 数目 受 限 于 该 套 接 字 接收 缓冲 区 的 大 小 。 我 们 
可 以 使 用 so_RCVBUF 套 接 字 选 项 修改 该 值 ， 如 7.5 节 所 述 。 在 FreeBSD 下 UDP 套 接 字 接收 缓冲 区 
的 默认 大 小 为 42 080 字 节 ， 也 就 是 只 有 30 个 1400 字 节 数 据 报 的 容纳 空间 。 如 果 我 们 增 大 套 接 字 
接收 缓冲 区 的 大 小 , 那么 服务 器 有 望 接收 更 多 的 数据 报 。 图 8-22 给 出 了 对 图 8-20 中 ag_echo 函 数 
的 修改 ， 把 套 接 字 接 收 缓冲 区 设置 为 240KB。 

在 Sun 主 机 上 运行 这 个 服务 器 程序 ， 在 RS/6000 主 机 上 运行 其 客户 程序 ， 接 收 到 的 数据 报 计 
数 现在 变 为 103。 这 比 前 面 使 用 默认 套 接 字 接 收 缓冲 区 的 例子 稍 有 改善 ,不 过 仍然 不 能 从 根本 上 
解决 问题 。 


在 图 8-22 中 我 们 为 什么 把 接收 套 接 字 缓 冲 区 大 小 设 为 220 x 1 024 字 节 呢 ? FreeBSD5.1 中 
一 个 套 接 字 接 收 缓冲 区 的 最 大 大 小 默认 为 262 144 字 节 (256 x 1 024 )， 但 是 由 于 缓冲 区 分 配 策 
略 ( 见 TCPv2 第 2 章 )， 真 实 的 限制 是 233 016 字 节 。 许 多 基于 4.3BSD 的 早期 系统 把 一 个 套 接 字 
缓冲 区 的 大 小 限制 为 52 000 字 节 左 右 。 


MD 0 0 uU 5 wt mnm 
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udpcliserv/dgecholoop2.c 
include "unp.h" 


static void recvfrom int(int); 
static int count; 


void 
dg echo(int sockfd, SA *pcliaddr, socklen t clilen) 
{ 

int n; 

socklen_t len; 

char mesg [MAXLINE] ; 


Signal (SIGINT, recvfrom int); 


n = 220 * 1024; 
Setsockopt (sockfd, SOL_SOCKET, SO_RCVBUF, &n, sizeof(n)); 


for (; 3) { 
len = clilen; 
Recvfrom(sockfd, mesg, MAXLINE, 0, pcliaddr, &len); 


count ++; 
} 
} 


static void 

recvfrom_int (int signo) 

{ 
printf ("\nreceived %d datagrams\n", count); 
exit (0); 


udpcliserv/dgecholoop2.c 
图 8-22” 增 大 套 接 字 接 收 队 列 大 小 的 sg_echo 函 数 


————————  — AR 


已 连接 UDP 套 接 字 还 可 用 来 确定 用 于 某 个 特定 目的 地 的 外 出 接口 。 这 是 由 connect 函 数 应 
用 到 UDP 套 接 字 时 的 一 个 副作用 造成 的 : 内 核 选择 本 地 下 地 址 〈 假 设 其 进程 未 曾 调用 bind 显 式 
间 派 它 )。 这 个 本 地 耳 地 址 通过 为 目的 耳 地 址 搜索 路 由 表 得 到 外 出 接口 ， 然 后 选用 该 接口 的 主 耳 


地 址 而 选 定 。 
图 8-23 给 出 了 一 个 简单 的 UDP 程序 ， 它 connect 到 一 个 指定 的 IP 地 址 后 调用 getsockname 
得 到 本 地 IP 地 址 和 端口 号 并 显示 输出 。 


在 多 宿主 机 freebsda 上 运行 该 程序 ， 我 们 得 到 如 下 输出 : 


freebsd $ udpcli09 206.168.112.96 
local address 12.106.32.254:52329 


freebsd $ udpcli09 192.168.42.2 
local address 192.168.42.1:52330 


freebsd $ udpcli09 127.0.0.1 
local address 127.0.0.1:52331 


第 一 次 运行 该 程序 时 所 用 命令 行 参数 是 一 个 遵循 默认 路 径 的 他 地 址 。 内 核 把 本 地 人 P 地 址 指 
派 成 默认 路 径 所 指 接口 的 主 IP 地 址 。 第 二 次 运行 该 程序 时 所 用 命令 行 参数 是 连接 到 另 一 个 以 太 
网 接口 的 一 个 系统 的 IP 地 址 ， 因 此 内 核 把 本 地 人 P 地 址 指派 成 该 接口 的 主 地址 。 在 UDP 套 接 字 上 
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调用 connect 并 不 给 对 端 主 机 发 送 任何 信息 ， 它 完全 是 一 个 本 地 操作 ， 只 是 保存 对 端的 IP 地 址 
和 端口 号 。 我 们 还 看 到 ， 在 一 个 未 绑 定 端口 号 的 UDP 套 接 字 上 调用 connect 同 时 也 给 该 套 接 字 
指派 一 个 临时 端口 。 


OO u nooo udpcliserv/udpcli09.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 ( 
5 int sockfd; 
6 socklen_t len; 
7 struct sockaddr_in cliaddr, servaddr; 
8 if (argc != 2) 
9 err quit("usage: udpcli «IPaddress»"); 
10 Sockfd = Socket(AF INET, SOCK DGRAM, 0); 
11 bzero(&servaddr, sizeof(servadàr)); 
12 servaddr.sin family - AF INET; 
13 servaddr.sin port = htons(SERV, PORT); 
14 Inet pton(AF INET, argv[i], &servaddr.sin addr); 
15 Connect(sockfd, (SA *) &servaddr, sizeof(servaddr)):; 
16 len = sizeof(cliaddr); 
17 Getsockname(sockfd, (SA *) &cliaddr, &len); 
18 printf("local address %s\n", Sock ntop((SA *) &cliaddr, len)); 
19 exit(0); 
20 } 
udpcliserv/udpcli09.c 


图 8-23 ”使 用 connect 来 确定 输出 接口 的 UDP 程序 


不 幸 的 是 ， 这 项 技术 并 非 对 所 有 实现 都 有 效 ， 尤 其 是 源 自 SVR4 的 内 核 。 举例 来 说 ， 它 对 
Solaris 2.5 无 效 ， 对 AIX、HP-UX 11、MacOS X. FreeBSD. Linux. Solaris 2.6 及 其 以 后 版 本 
PHAR. 


8.15 ”使 用 select 函数 的 TCP 和 UDP 回 射 服务 器 程序 。 


ME, 我 们 把 第 5 章 中 的 并 发 TCP 回 射 服务 器 程序 与 本 章 中 的 迭代 UDP 回 射 服务 器 程序 组 合 
成 单个 使 用 select 来 复 用 TCP 和 UDP 套 接 字 的 服务 器 程序 。 图 8-24 是 该 程序 的 前 半 部 分 。 
创建 监听 TCP 套 接 字 
14-22 ”创建 一 个 监听 TCP 套 接 字 并 捆绑 服务 器 的 众所周知 端口 ， 设 置 So_REUSEADDR 套 接 字 选 
项 以 防 该 端口 上 已 有 连接 存在 。 
创建 UDP 套 接 字 
23-29 还 创建 一 个 UDP 套 接 字 并 捆绑 与 TCP 套 接 字 相同 的 端口 。 这 里 无 需 在 调用 binq 之 前 设 
贰 SoO_REUSEADDR 套 接 字 选 项 ， 因 为 TCP 端 口 是 独 立 于 UDP 端口 的 。 
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udpcliserv/udpservselectO1.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4í 
5 int listenfd, connfd, udpfd, nready, maxfdpl; 
6 char mesg [MAXLINE]; 
7 pid t childpid; 
8 fd set rset; 
9 ssize_t n; 
10 Socklen t len; 
11 const int on - 1; 
12 struct sockaddr, in cliaddr, servaddr; 
13 void sig chld(int); 
14 /* create listening TCP socket */ 
15 listenfd = Socket (AF_INET, SOCK_STREAM, 0); 
16 bzero(&servaddr, sizeof (servaddr) ); 
17 servaddr.sin family = AF_INET; 
18 servaddr.sin_addr.s_addr = htonl(INADDR ANY); 
19 servaddr.sin_port = htons(SERV_PORT) ; 
20 Setsockopt(listenfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
21 Bind(listenfd, (SA *) &servaddr, sizeof(servaddr)); 
22 Listen(listenfd, LISTENQ); 
23 /* create UDP socket */ 
24 udpfd - Socket(AF INET, SOCK DGRAM, 0); 
25 bzero(&servaddr, sizeof (servaddr) ); 
26 servaddr.sin family - AF_INET; 
27 servaddr.sin addr.s addr = htonl(INADDR, ANY); 
28 servaddr.sin port = htons(SERV PORT); 
29 Bind(udpfd, (SA *) &servaddr, sizeof(servaddr)); 





udpcliserv/udpservselectO1.c 
图 8-24 ”使 用 select 处 理 TCP 和 UDP 的 回 射 服务 器 程序 ， 前 半 部 分 


图 8-25 给 出 了 服务 器 程序 的 后 半 部 分 。 
给 sIGCHLD 建 立信 号 处 理 程序 
30 ”给 sIGcHLD 建 立信 号 处 理 程序 ， 因 为 TCP 连 接 将 由 某 个 子 进程 处 理 。 我 们 已 在 图 5-11 中 
给 出 了 这 个 信号 处 理 函 数 。 
准备 调用 select 
31-32 ”我 们 给 select 初 始 化 一 个 描述 符 集 ， 并 计算 出 我 们 等 待 的 两 个 描述 符 的 较 大 者 。 
调用 select 
34~41 ”我 们 调用 select 只 是 为 了 等 待 监听 TCP 套 接 字 的 可 读 条 件 或 UDP 套 接 字 的 可 读 条 件 。 
既然 我 们 的 sig_chla 信 号 处 理 函 数 可 能 中 断 我 们 对 select 的 调用 ， 我 们 于 是 需要 处 理 
EINTR 错 误 。 
处 理 新 的 客户 连接 
42-51 当 监 听 TCP 套 接 字 可 读 时 ， 我 们 accept 一 个 新 的 客户 连接 ，fork 一 个 子 进 程 ， 并 在 子 
进程 中 调用 str_echo 函 数 。 这 与 第 5 章 中 采取 的 步骤 相同 。 
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oe L udpcliserv/udpservselect0].c 
30 Signal (SIGCHLD, sig_chld); /* must call waitpid() */ 
31 FD ZERO(&rset); 
32 maxfdpl = max(listenfd, udpfd) + 1; 
33 for (5$) t 
34 FD SET(listenid, &rset); 
35 FD SET(udpfd, &rset); 
36 if ( (nready = select(maxfdpl, &rset, NULL, NULL, NULL)) < 0) ( 
37 if (errno -- EINTR) 
38 continue; /* back to for() */ 
39 else 
40 err sys("select error"); 
41 H 
42 if (FD ISSET(listenfd, &rset)) ( 
43 len - sizeof(cliaddr); 
44 connfd = Accept(listenfd, (SA *) &cliaddr, &len); 
45 if ( (childpid - Fork()) -- 0) ( /* child process */ 
46 Close(listenfd); /* close listening socket */ 
47 str echo(connfd); /* process the request */ 
48 exit (0); 
49 } 
50 Close (connfd); /* parent closes connected socket */ 
51 } 
52 if (FD ISSET(udpfd, &rset)) ( 
53 len = sizeof(cliaddr); 
54 n - Recvfrom(udpfd, mesg, MAXLINE, 0, (SA *) &cliaddr, &len); 
55 Sendto(udpfd, mesg, n, 0, (SA *) &cliaddr, len); 
56 ) 
57 } 
58 ) 
udpcliserv/udpservselectO1.c 
图 8-25 ”使 用 select 处 理 TCP 和 UDP 的 回 射 服务 器 程序 :后 半 部 分 
处 理 数据 报 的 到 达 
52-57 ”如 果 UDP 套 接 字 可 该 ， 那 么 已 有 一 个 数据 报到 达 。 我 们 使 用 recvfrom 读 入 它 ， 再 使 用 
sendto 把 它 发 回 给 客户 。 
8.16 小结 








把 我 们 的 TCP 回 射 客户 /服务 器 程序 转换 成 UDP 回 射 客户 /服务 器 程序 比较 容易 ,然而 TCP 提 
供 的 许多 功能 也 消失 了 : 检测 丢失 的 分 组 并 重 传 , 验证 响应 是 否 来 自 正确 的 对 端 ， 等 等 。 到 22.5 
节 我 们 再 回 过 头 来 讨论 这 个 话题 ， 并 查看 如 何 给 UDP 应 用 程序 增加 一 些 可 靠 性 。 

UDP 套 接 字 可 能 产生 异步 错误 ， 它 们 是 在 分 组 发 送 完 一 段 时 间 后 才 报告 的 错误 。TCP 套 接 
字 总 是 给 应 用 进程 报告 这 些 错误 ， 但 是 UDP 套 接 字 必 须 已 连接 才能 接收 这 些 错 误 。 

UDP 没有 流量 控制 ， 这 一 点 很 容易 演示 证 明 。 一 般 来 说 ， 这 不 成 什么 问题 ， 因 为 许多 UDP 
应 用 程序 是 用 请 求 -应 答 模式 构造 的 ， 而 且 不 用 于 传送 大 量 数据 。 

编写 UDP 应 用 程序 时 还 有 许多 问题 需要 考虑 ， 不 过 我 们 把 它们 留 到 第 22 章 ， 也 就 是 在 讲解 
了 接口 函数 、 广 播 和 多 播 以 后 再 作 讨论 。 
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我 们 有 两 个 应 用 程序 ， 一 个 使 用 TCP， 另 一 个 使 用 UDP。TCP 套 接 字 的 接收 缓冲 区 中 有 4096 字 节 的 数 
据 ，UDP 套 接 字 的 接收 缓冲 区 中 有 两 个 2048 字 节 的 数据 报 。TCP 应 用 程序 调用 read， 指 定 其 第 三 个 
参数 为 4096，UDP 应 用 程序 调用 recvfrom， 指 定 其 第 三 个 参数 也 为 4096。 这 两 个 应 用 程序 有 什么 差 
别 吗 ? 

在 图 8-4 中 ， 如 果 我 们 用 clilen 来 代替 senato 的 最 后 一 个 参数 〈 它 原本 是 len)， 将 会 发 生 什么 ? 
编译 并 运行 图 8-3 及 图 8-4 的 UDP 服务 器 程序 和 图 8-7 及 图 8-8 的 UDP 客户 程序 。 验 证 一 下 客户 与 服务 器 
能 一 起 工作 。 

在 一 个 窗口 中 运行 ping 程 序 ， 指 定 -i 60 选 项 〈 每 60 秒 发 一 个 分 组 ， 有 些 系统 用 -I 而 不 是 -i)、-v 
选项 (输出 所 有 接收 到 的 ICMP 错 误 ) 和 环 回 地 址 (通常 为 127.0.0.1)。 我 们 将 用 该 程序 来 观察 由 服务 
器 主机 返回 的 端口 不 可 达 ICMP 错 误 。 然后， 在 另 一 个 窗口 运行 上 一 个 习题 中 的 客户 ， 指 定 不 在 运行 
服务 器 的 某 主机 的 IP 地 址 。 将 会 发 生 什 么 ? i 

对 于 图 8-5 我 们 说 过 每 个 已 连接 TCP 套 接 字 都 有 自己 的 套 接 字 接收 缓冲 区 。 监 听 套 接 字 情 况 怎样 ? 你 
认为 它 有 自己 的 套 接 字 接 收 缓冲 区 吗 ? 

用 sock 程 序 〈《C.3 节 ) 和 诸如 tcpdump (C.5 节 ) 之 类 的 工具 来 测试 我 们 在 8.10 节 给 出 的 声明 : 如 果 客 
户 binG 一 个 IP 地 址 到 它 的 套 接 字 上 ， 但 是 发 送 一 个 从 其 他 接口 外 出 的 数据 报 ， 那 么 该 数据 报 仍然 包 
含 绑 定 在 该 套 接 字 上 的 中 地 址 ， 即 使 该 了 P 地 址 与 该 数据 报 的 外 出 接口 并 不 相符 也 不 管 。 

编译 8.13 节 中 的 程序 并 在 不 同 的 主机 上 运行 客户 和 服务 器 。 在 客户 程序 中 每 次 写 一 个 数据 报到 套 接 字 
处 放 一 个 printf 调 用 ， 这 会 改变 接收 到 分 组 的 百分比 吗 ? 为 什么 ? 在 服务 器 程序 中 每 次 从 套 接 字 读 
一 个 数据 报 处 放 一 个 printf 调 用 ， 这 会 改变 接收 到 分 组 的 百分比 吗 ? 为 什么 ? 

对 于 UDP/IPv4 套 接 字 ， 可 传递 给 sendto 的 最 大 长 度 是 多 少 ; 也 就 是 说 ， 可 装填 在 一 个 UDP/IPv4 数 据 
报 中 的 最 大 数据 量 是 多 少 ? UDP/IPv6 又 有 什么 不 同 ? 

修改 图 8-8 以 发 送 最 大 长 度 的 UDP 数 据 报 ， 读 回 它 ， 并 输出 由 recvfrom 返 回 的 字 节 数 。 

通过 对 UDP 套 接 字 使 用 FTP_RECVDSTADDR 套 接 字 选 项 ， 把 图 8-25 的 程序 修改 为 符合 RFC 1122. 
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9.1 概述 


SCTP 是 一 个 较 新 的 传输 协议 ， 于 2000 年 在 IETF 得 到 标准 化 (而 TCP 是 在 1981 年 标准 化 的 )。 
它 最 初 是 为 满足 不 断 增长 的 IP 电 话 市 场 设 计 的 ， 具 体 地 说 就 是 穿越 因特网 传输 电话 信 令 。 它 设 
计 实 现 的 需求 在 RFC 2719 [Ong et al. 1999] 中 说 明 。SCTP 是 一 个 可 靠 的 面向 消息 的 协议 ， 在 
端点 之 间 提 供 多 个 流 ， 并 为 多 宿 提供 传输 级 支持 。 既 然 是 一 个 较 新 的 传输 协议 ， 它 没有 TCP 或 
UDP 那样 无 处 不 在 ， 然 而 它 提 供 了 一 些 有 可 能 简化 特定 应 用 程序 设计 的 新 特性 。 我 们 将 在 23.12 
节 讨 论 考虑 用 SCTP 代 替 TCP 的 原因 。 

尽管 SCTP 和 TCP 之 间 存 在 一 些 本 质 性 的 差别 , 然而 SCTP 的 一 到 一 (one-to-one) 接口 与 TCP 
提供 的 应 用 接口 非常 接近 。 这 一 点 允许 轻而易举 地 移植 应 用 程序 ， 不 过 没 法 使 用 SCTP 的 某 些 高 
级 特性 。SCTP 的 一 到 多 (one-to-many) 接口 提供 了 这 些 特性 的 完全 支持 ， 然 而 可 能 需要 费时 费 
力 地 重新 编写 已 有 的 应 用 程序 。 对 于 大 多 数 使 用 SCTP 开 发 的 新 应 用 程序 而 言 ， 推 荐 使 用 一 到 多 
接口 。 

本 章 讲解 可 额外 用 于 SCTP 的 基本 套 接 字 函 数 。 我 们 首先 讲解 应 用 程序 开发 人 员 可 以 使 用 的 
两 种 不 同 的 接口 模型 。 在 第 10 章 中 ， 我 们 将 使 用 一 到 多 模型 开发 回 射 服务 器 程序 的 一 个 版 本 。 我 
还 讲解 仅仅 用 于 SCTP 的 新 函数 ， 随 后 查看 shut down 函 数 ， 了 解 它 在 SCTP 中 的 使 用 与 在 TCP 中 的 
使 用 如 何不 同 。 我 们 接着 简要 讨论 SCTP 中 通知 (notification) 的 使 用 。 通 知 使 得 一 个 应 用 进程 能 
够 知晓 用 户 数据 到 达 以 外 的 重要 协议 事件 。23.4 节 中 我 们 将 会 看 到 一 个 如 何 使 用 通知 的 例子 。 

SCTP 各 种 特性 的 接口 因为 本 身 较 新 而 尚未 完全 稳定 。 编写 本 书 时 ，, 书 中 讲解 的 接口 被 认为 
是 已 经 稳定 ， 不 过 当然 没有 像 套 接 字 API 其 余部 分 那样 普遍 存在 。 仅 使 用 SCTP 的 应 用 程序 的 用 
户 需 准备 好 安装 内 核 补丁 或 升级 操作 系统 ， 而 想 要 在 各 种 平台 上 使 用 的 应 用 程序 需要 同时 考虑 
使 用 TCP， 以 应 对 SCTP 不 可 用 的 系统 。 
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SCTP 套 接 字 分 为 : 一 到 一 套 接 字 和 一 到 多 套 接 字 。 一 到 一 套 接 字 对 应 一 个 单独 的 SCTP 关 
联 。( 回 顾 2.5 节 ， 我 们 知道 一 个 SCTP 关 联 是 两 个 系统 之 间 的 一 个 连接 ， 不 过 可 能 由 于 多 宿 原 因 
而 在 每 个 端点 涉及 不 止 一 个 IP 地 址 。〉 这 种 映射 类 似 于 TCP 套 接 字 和 TCP 连 接 的 对 应 关系 。 对 于 
一 到 多 套 接 字 , 一 个 给 定 套 接 字 上 可 以 同时 有 多 个 活路 的 SCTP 关 联 。 这 种 映射 类 似 于 绑 定 了 某 
个 特定 端口 的 UDP 套 接 字 能 够 从 若干 个 同时 在 发 送 数据 的 远程 UDP 端点 接收 彼此 交错 的 数据 报 。 

在 决定 使 用 哪 种 接口 形式 时 ， 需 要 考虑 应 用 程序 的 多 个 因素 。 

。 所 编写 的 服务 器 程序 是 迭代 的 还 是 并 发 的 ? 

© 服务 器 希望 管理 多 少 套 接 字 描 述 符 ? 
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。 优化 关联 建立 的 四 路 握手 过 程 ， 使 得 能 够 在 其 中 第 三 个 (也 可 能 是 第 四 个 ) 分 组 交换 用 
户 数据 ， 这 一 点 很 重要 吗 ? 
e. 应 用 进程 希望 维护 多 少 个 连接 状态 ? 


在 开发 SCTP 的 套 接 字 API 期 间 ， 这 两 种 形式 的 套 接 字 曾 经 用 过 别 的 称谓 ， 在 文档 或 源 代 
码 中 ， 读 者 有 时 会 碰 到 这 些 旧 的 名 称 。 一 到 一 套 接 字 原 本 称 为 TCP 风 格 (TCP-style ) 套 接 字 ， 
一 到 多 套 接 字 原 本 称 为 UDP 风格 (UDP-style ) 套 接 字 。 

这 些 风格 称谓 后 来 被 取消 了 ， 因 为 它们 易于 造成 混淆 ， 即 SCTP 可 能 被 误解 成 其 行为 更 像 
TCP 或 UDP， 具 体 取 决 于 使 用 哪 种 风格 的 套 接 字 。 事 实 上 这 些 称谓 仅仅 引用 了 TCP 套 接 字 和 
UDP 套 接 字 在 一 个 方面 的 差异 ( 即 是 否 支持 多 个 并 发 的 传输 层 关 联 ). 它们 目前 的 称谓 (一 到 
一 与 一 到 多 ) 集中 体现 了 这 两 种 套 接 字形 式 之 间 的 关键 差异 。 最 后 指出 ， 有 些 作 者 使 用 多 到 
一 这 个 称谓 代替 一 到 多 ， 两 者 可 以 互 换 。 


9.2.1 一 到 一 形式 


开发 一 到 一 形式 的 目的 是 方便 将 现 有 TCP 应 用 程序 移植 到 SCTP 上。 它 提 供 的 模型 与 第 4 章 
中 介绍 的 几乎 一 样 。 以 下 是 这 两 者 之 间 必 须 搞 清 的 差异 ， 特 别 是 在 把 现 有 TCP 应 用 程序 移植 到 
SCTP 的 这 种 形式 上 时 。 

(1) 任何 TCP 套 接 字 选项 必须 转换 成 等 效 的 SCTP 套 接 字 选项 。 两 个 较 常 见 的 选项 是 
TCP_NODELAY 和 TCP_MAXSEG， 它 们 应 该 映射 成 ScTP_NODELAY 和 SCcTP_MAXSEG。 

(2) SCTP 保 存 消 息 边 界 ， 因 而 应 用 层 消息 边界 并 非 必需 。 举 例 来 说 ， 基 于 TCP 的 某 个 应 用 协 
议 可 能 先 执行 一 个 双 字 节 的 write 系统 调用 ， 给 出 消息 的 长 度 x， 再 调用 一 个 x 字 节 的 write 系统 
调用 ， 写 出 消息 数据 本 身 。 改 用 SCTP 后 ， 接 收 端 SCTP 将 收 到 两 个 独立 的 消息 〈 也 就 是 说 得 有 两 
次 read 系 统 调 用 才能 返回 全 部 数据 ;第 一 次 返回 一 个 双 字 节 数据 ， 第 二 次 返回 一 个 x* 字 节 消 息 )。 

(3) 有 些 TCP 应 用 进程 使 用 半 关 闭 来 告知 对 端 去 往 它 的 数据 流 已 经 结束 。 将 这 样 的 应 用 程序 移 
植 到 SCTP 需 要 额外 重 写 应 用 层 协议 , 让 应 用 进程 在 应 用 数据 流 中 告知 对 端 该 传输 数据 流 已 经 结束 。 

(4) send 函 数 能 够 以 普通 方式 使 用 。 使 用 sendto 或 sendmsg 函 数 时 ， 指 定 的 任何 地 址 都 被 
认为 是 对 目的 地 主 地 址 〈 见 2.8 节 ) 的 重 写 (overriding， 意 为 弃 原 值 、 置 新 值 )。 

图 9-1 所 示 为 一 到 一 套 接 字典 型 用 法 的 时 间 线 图 。 服 务 器 启动 后 ， 打 开 一 个 套 接 字 ，bina 
一 个 地 址 ， 然 后 就 等 着 accept 客 户 关 联 。 一 段 时 间 后 客户 启动 ， 它 也 打开 一 个 套 接 字 ， 并 初始 
化 与 服务 器 的 一 个 关联 。 我 们 假设 客户 向 服务 器 发 送 一 个 请 求 ， 服 务 器 处 理 该 请 求 后 向 客户 发 
回 一 个 应 答 。 这 个 循环 持续 到 客户 开始 终止 该 关联 为 止 。 这 样 主动 关闭 关联 之 后 ， 服 务 器 或 者 
退出 , 或 者 等 待 新 的 关联 。 通 过 对 比 图 4-1 所 示 TCP 上 典型 用 法 的 时 间 线 图 , 我 们 看 到 SCTP 一 到 一 
套 接 字 的 交互 类 似 于 TCP 套 接 字 。 

一 到 一 式 SCTP 套 接 字 是 一 个 类 型 为 Sock_sTREAM， 协 议 为 TPPROTO_ScTP 的 网 际 网 套 接 字 
( 即 协 议 族 为 AF_INET 或 AF_INET6)。 


9.2.2 一 到 多 形式 


一 到 多 形式 给 应 用 程序 开发 人 员 提供 这 样 的 能 力 ; 编写 的 服务 器 程序 无 需 管理 大 量 的 套 接 
字 描 述 符 。 单 个 套 接 字 描述 符 将 代表 多 个 关联 ， 就 像 一 个 UDP 套 接 字 能 够 从 多 个 客户 接收 消息 
那样 。 在 一 到 多 式 套 接 字 上 ， 用 于 标识 单个 关联 的 是 一 个 关联 标识 〈association identifier)。 关 
联 标识 是 一 个 类 型 为 sctp_assoc_t 的 值 ， 通 常 是 一 个 整数 。 它 是 一 个 不 透明 的 值 ， 应 用 进程 不 
应 该 使 用 不 是 由 内 核 先前 给 予 的 任何 关联 标识 。 一 到 多 式 套 接 字 的 用 户 应 该 掌握 以 下 几 点 。 
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图 9-1 SCTP 一 到 一 形式 的 套 接 字 函 数 


(1) 当 一 个 客户 关闭 其 关联 时 ， 其 服务 器 也 将 自动 关闭 同一 个 关联 ， 服 务 器 主机 内 核 中 不 再 
有 该 关联 的 状态 。 

(2) 可 用 于 致使 在 四 路 握手 的 第 三 个 或 第 四 个 分 组 中 撒 带 用 户 数据 的 唯一 办 法 就 是 使 用 一 
到 多 形式 (见习 题 9.3)。 

(3) 对 于 一 个 与 它 还 没有 关联 存在 的 P 地 址 ， 任 何以 它 为 目的 地 的 sendto、sendmsg 或 
sctp_sendmsg 将 导致 对 主动 打开 的 尝试 ， 从 而 (如 果 成 功 的 话 ) 建立 一 个 与 该 地 址 的 新 关联 。 
这 种 行为 的 发 生 与 执行 分 组 发 送 的 这 个 应 用 进程 是 否 曾 调用 过 1isten 函 数 以 请 求 被 动 打开 无 关 。 

(4) 用 户 必 须 使 用 senato、sendmsg 或 sctp_sendmsg 这 3 个 分 组 发 送 函 数 ， 而 不 能 使 用 sena 
或 write 这 2 个 分 组 发 送 函数 ， 除 非 已 经 使 用 sctp_peeloff 函 数 从 -个 一 到 多 式 套 接 字 有 剥离 出 

-个 一 到 一 式 套 接 字 。 

(5) 任何 时 候 调用 其 中 任何 一 个 分 组 发 送 函数 时 ， 所 用 的 目的 地 址 是 由 系统 在 关联 建立 阶段 
(2.8 节 ) 选 定 的 主 目的 地 址 ， 除 非 调用 者 在 所 提供 的 sctp_sndrcvinfo 结 构 中 设置 df. 
MSG_ADDR_OVER 标 志 。 为 了 提供 这 个 结构 ， 调 用 者 必须 使 用 伴随 辅助 数据 的 senamsg 函 数 或 
sctp_sendmsg 了 图 数 。 
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(6) 关联 事件 〈 将 在 9.14 节 讨论 的 众多 SCTP 通 知之 一 ) 可 能 被 启用 ， 因 此 要 是 应 用 进程 不 
希望 收 到 这 些 事件 ， 就 得 使 用 ScTP_EVENTS 套 接 字 选项 显 式 禁 止 它 们 。 默 认 情 况 下 启用 的 唯一 
事件 是 sctp_data_io_event， 它 给 recvmsg 和 sctp_recvmsg 调 用 提供 辅助 数据 。 这 个 默认 设 
置 同时 适用 于 一 到 一 形式 和 一 到 多 形式 。 

最 初 开发 SCTP 的 套 接 字 API 时 ， 一 到 多 形式 接口 被 定义 成 默认 情况 下 也 开启 关联 事件 通 
知 。 该 API 文 档 的 后 续 版 本 禁止 了 一 到 一 和 一 到 多 这 两 种 形式 接口 除 sctp_data_io_event 
以 外 的 所 有 事件 通知 。 尽管 如 此 ， 并 非 所 有 实现 都 具备 这 样 的 行为 。 对 于 应 用 程序 开发 人 员 
来 说 ， 显 式 禁止 (或 局 用 ) 不 想 要 的 (或 想 要 的 ) 通知 是 最 好 的 做 法 ， 能 够 确保 不 论 代码 移 
植 到 哪 种 操作 系统 ， 总 是 导致 所 期 望 的 行为 。 


图 9-2 所 示 为 一 到 多 套 接 字 典型 用 法 的 时 间 线 图 。 服务器 启动 后 打开 一 个 套 接 字 , ping 一 个 
地 址 ， 调 用 1isten 以 允许 客户 建立 关联 ， 然 后 就 调用 sctp_recvmsg 阻 塞 于 等 待 第 一 个 消息 的 
到 达 。 客 户 启 动 后 也 打开 一 个 套 接 字 ， 并 调用 sctp_sendto， 它 导致 隐 式 建立 关联 ， 而 数据 请 
求 由 四 路 握手 的 第 三 个 分 组 撒 带 给 服务 器 。 服 务 器 收 到 该 请 求 后 进行 处 理 并 向 该 客户 发 回 一 个 
应 答 。 客 户 收 到 应 答 后 关闭 其 套 接 字 ， 从 而 终止 其 上 的 关联 。 服 务 器 循环 回去 接收 下 一 个 消息 。 


SCTP 服 务 器 


SCTP 客 户 - 直 阻 塞 到 


snis 














众所周知 端口 




























SCTP 四 路 握手 
COOKIE ECHO 上 的 数据 ( 请 求 ) 





sctp sendmsg() 







sctp recvmsg() 





服务 器 无 须 关心 
图 9-2 ”SCTP 一 到 多 形式 的 套 接 字 函数 


本 例子 展示 的 是 一 个 迭代 服务 器 ， 来 自 许 多 关联 〈 也 就 是 许多 客户 ) 的 〈 可 能 交错 的 ) 消 
息 能 够 由 单个 控制 线程 处 理 。 在 SCTP 中 ， 一 个 一 到 多 套 接 字 也 能 够 结合 使 用 sctp_peeloff 函 
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数 〈9.12 节 ) 以 允许 组 合 和 迭代 服务 器 模型 和 并 发 服务 器 模型 ， 它 们 的 关系 如 下 。 

(1) sctp_peeloff 函 数 用 于 从 一 个 一 到 多 套 接 字 剥离 出 某 个 特定 的 关联 〈 例 如 一 个 长 期 持 
续 的 会 话 )， 独 自 构 成 一 个 一 到 一 式 套 接 字 。 

(2) 剥离 出 的 关联 所 在 的 一 到 一 套 接 字 随 后 就 可 以 遣送 给 它 自己 的 线程 ， 或 者 遣送 给 为 它 派 
生 的 进程 〈 就 像 在 并 发 模型 中 那样 )。 

(3) 与 此 同时 ， 主 线程 继续 在 原来 的 套 接 字 上 以 迭代 方式 处 理 来 自任 何 剩余 关联 的 消息 。 

一 到 多 式 SCTP 套 接 字 是 一 个 类 型 为 SoCK_SEQPACKET, 协议 为 TPPROTO_SCTP 的 网 际 网 套 接 
字 【〔 即 协议 族 为 AF_INET 或 AF_INET6)。 
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9.3 Sctp bindx BA 





SCTP 服 务 器 可 能 希望 捆绑 与 所 在 主机 系统 相关 IP 地 址 的 一 个 子 集 。 传 统 意 义 上 ，TCP 服 务 
器 或 UDP 服务 器 要 么 捆绑 所 在 主机 的 某 个 地 址 ， 要 么 捆绑 所 有 地 址 ， 而 不 能 捆绑 这 些 地 址 的 一 
个 子 集 。sctp_bindx 函 数 允 许 SCTP 套 接 字 捆绑 一 个 特定 地 址 子 集 。 





#include <netinet/sctp.h> 


int sctp_bindx(int sockfd, const struct sockaddr *addrs, int addrcnt, int flags); 
返回 : 老成 功 则 为 0， 若 出 错 则 为 -1 





sockfd 是 由 socket 函 数 返回 的 套 接 字 描 述 符 。 第 二 个 参数 addrs 是 一 个 指向 紧凑 的 地 址 列表 
的 指针 。 每 个 套 接 字 地 址 结构 套 接 字 地 址 结构 紧 跟 在 前 一 个 套 接 字 地 址 结构 之 后 ， 中 间 没 有 填 
充 字 节 。 例 子 见 图 9-4。 

传递 给 sctp_bingx 的 地 址 个 数 由 addrcnt 参 数 指定 。flags 参 数 指导 sctp_bindx 调 用 执行 图 
9-3 所 示 的 两 种 行为 之 一 。 






SCTP BINDX ADD ADDR | 往 套 接 字 中 添加 地 址 
SCTP BINDX REM, AD 从 套 接 字 中 删除 地 址 


图 9-3 sctp bina x 函数 所 用 的 flags 参 数 






addr oo 





协议 诸 为 
AF_INET sizeof (sockaddr in{}) 
192.168.1.1 


sizeof(sockaddr in6()) 


addrcnt -3 } sizeof (sockaddr in()) 


图 9-4 SCTP 调 用 所 需 的 紧凑 地 址 列表 格式 
sctp_bindx 调 用 既 可 用 于 已 绑 定 的 套 接 字 , 也 可 用 于 未 绑 定 的 套 接 字 。 对 于 未 绑 定 的 套 接 
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字 ，sctp_bindx 调 用 将 把 给 定 的 地 址 集合 捆绑 到 其 上 。 对 于 已 绑 定 的 套 接 字 ， 若 指定 
SCTP_BINDX_ADD_ADDR 则 把 额外 的 地 址 加 入 到 套 接 字 描 述 符 ， 若 指定 ScTP_BINDX_REM_ADDR 
则 从 套 接 字 描 述 符 的 已 加 入 地 址 中 移 除 给 定 的 地 址 。 如 果 在 一 个 监听 套 接 字 上 执行 sctp_bindx 
调用 ， 那 么 将 来 产生 的 关联 将 使 用 新 的 地 址 配置 ， 已经 存在 的 关联 则 不 受 影响 。 传 递 给 
sctp_bindx 的 两 个 标志 是 互 斥 的 ， 如 果 同 时 指定 ， 调 用 就 会 失败 ， 返 回 的 错误 码 为 EINVAL。 
所 有 套 接 字 地 址 结构 的 端口 号 必须 相同 ， 而 且 必 须 与 已 经 绑 定 的 端口 号 相 匹 配 ， 否 则 调用 就 会 
失败 ， 返 回 EINVAL 错 误 码 。 

如 果 一 个 端点 支持 动态 地 址 特性 ， 指 定 ScCTP_BINDX_ADD_ADDR 或 SCTP_BINDX_REM_ADDR 
标志 调用 sctp_bindx 将 导致 该 端点 向 对 端 发 送 一 个 合适 的 消息 ， 以 修改 对 端的 地 址 列表 。 由 于 
增 减 一 个 已 连接 关联 的 地 址 只 是 一 个 可 选 的 功能 ， 因 此 不 支持 本 功能 的 实现 将 返回 
EOPNOTSUPP。 注 意 ， 本 功能 正确 操作 要 求 两 个 端点 都 支持 这 个 特性 。 本 特性 对 于 支持 动态 接口 
供给 的 系统 可 能 有 用 ， 举 例 来 说 ， 如 果 调 出 一 个 新 的 以 太 网 接口 ， 那 么 应 用 进程 可 以 指定 
SCTP_BINDX_ADD_ADDR 标 志 在 已 经 存在 的 连接 上 启动 使 用 这 个 接口 。 
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#include «netinet/sctp.h» 


int sctp connectx(int sockfd, const struct sockaddr *addrs, int addrcnt): 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 





sctp_connectx 函 数 用 于 连接 到 一 个 多 宿 对 端 主机 。 该 函数 在 addrs 参 数 中 指定 addrcnt 个 全 
部 属于 同一 对 端的 地 址 。addrs 参 数 是 一 个 紧凑 的 地 址 列表 ， 如 图 9-4 所 示 。SCTP 栈 使 用 其 中 一 
个 或 多 个 地 址 建立 关联 。 列 在 addrs 参 数 中 的 所 有 地 址 都 被 认为 是 有 效 的 经 过 证 实 的 地 址 。 
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getpeername 函 数 不 是 为 支持 多 宿 概念 的 传输 协议 设计 的 ; 当 用 于 SCTP 时 它 仅 仅 返 回 主 目 
的 地 址 。 如 果 需 要 知道 对 端的 所 有 地 址 ， 那 么 应 该 使 用 scrp_getpaddrs 函 数 。 


#include «netinet/sctp.h» 


int sctp getpaddrs(int sockfd, sctp assoc t id, struct sockaddr **addrs); 
返回 ， 车 成 功 则 为 存放 在 addrs 中 的 对 端 地 址 数 ， 若 出 错 则 为 -1 





sockfd 参 数 是 由 socket 函 数 返 回 的 套 接 字 描述 符 。id 参 数 是 一 到 多 式 套 接 字 的 关联 标识 ， 
而 一 到 一 式 套 接 字 则 会 忽略 该 字段 。addrs 参 数 是 一 个 地 址 指针 ， 而 地 址 内 容 是 由 本 函数 动态 分 
配 并 填 入 的 紧凑 的 地 址 列表 。 关 于 这 个 返回 值 的 细节 参见 图 9-4 和 图 23-12。 用 完 之 后 ， 调 用 者 
应 该 使 用 sctp_freepaddqrs 释 放 所 分 配 的 资源 。 
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函数 sctp_freepaddrs 函 数 释 放 由 sctp_getpaddrs 函 数 分 配 的 资源 。 
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#include «netinet/sctp.h» 


void sctp freepaddrs(struct sockaddr *addrs); 


addrs 参 数 是 指向 由 sctp_getpaadqrs 返 回 的 地 址 数组 的 指针 。 
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sctp_getladqdrs 函 数 用 于 获取 属于 某 个 关联 的 本 地 地 址 。 当 需要 知道 一 个 本 地 端点 究竟 
在 使 用 哪些 本 地 地 址 时 (它们 可 能 是 主机 所 有 地 址 的 某 个 子 集 )， 可 以 调用 本 函数 。 


#include <netinet/sctp.h> 


int sctp getladdrs(int sockfd, sctp assoc t id, struct sockaddr **addrs); 


返回 : 车 成 功 则 为 存放 在 addrs 中 的 本 端 地 址 数 ， 若 出 错 则 为 -1 





SOCkfd 参 数 是 由 socket 函数 返回 的 套 接 字 描述 符 。id 参 数 是 一 到 多 式 套 接 字 的 关联 标识 ， 
而 一 到 一 式 套 接 字 则 会 忽略 它 。addrs 参 数 是 一 个 地 址 指针 ， 而 地 址 内 容 是 由 本 函数 动态 分 配 并 
填 入 的 紧凑 的 地 址 列表 。 关 于 这 个 返回 值 的 细节 参见 图 9-4 和 图 23-12。 用 完 之 后 ， 调 用 者 应 该 
使 用 sctp_freeladdrs 释 放 所 分 配 的 资源 。 
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9.8 sctp freeladdrs 函数 








sctp_freeladdrsM SURE H sctp_get laddrsh LZ) BUR AMR. 


#include <netinet/sctp.h> 





void sctp freeladdrs(struct sockaddr *addrs) ; 


addrs 参 数 是 指向 由 sctp_get1addrs 返 回 的 地 址 数组 的 指针 。 
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通过 使 用 伴随 辅助 数据 的 sendamsg 函 数 〈 第 14 章 )， 应 用 进程 能 够 控制 SCTP 的 各 种 特性 。 
然而 既然 使 用 辅助 数据 可 能 不 大 方便 ， 许 多 SCTP 实 现 提 供 了 一 个 辅助 函数 库 调 用 (有 可 能 作为 
系统 调用 实现 )， 以 方便 应 用 进程 使 用 SCTP 的 高 级 特性 。 








*include «netinet/sctp.h» 


ssize_t sctp sendmsg(int sockfd, const void *msg, size t msgsz, 
const struct sockaddr *to, socklen, t tolen, 
uint32 t ppid, 
uint32 t flags, uint16 t stream, 
uint32 t timetolive, uint32 t context); 


返回 : 若 成 功 则 为 所 写字 节 数 ， 若 出 错 则 为 -1 








sctp_sendmsg 的 使 用 者 以 指定 更 多 参数 为 代价 简化 了 发 送 方法 ,sockfd 参 数 是 由 socket 函 
数 返 回 的 套 接 字 描 述 符 。msg 参 数 指向 一 个 长 度 为 msgsz 字 节 的 缓冲 区 ， 其 中 内 容 将 发 送 给 对 端 
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端点 to。tolen 参 数 指定 存放 在 to 中 的 地 址 长 度 。ppid 参 数 指定 将 随 数 据 块 传递 的 净 荷 协议 标识 符 。 
flags 参 数 将 传递 给 SCTP 栈 ， 用 以 标识 任何 SCTP 选 项 ， 图 7-16 给 出 了 这 个 参数 的 有 效 取 值 。 

调用 者 在 stream 参 数 中 指定 一 个 SCTP 流 号 。 调 用 者 可 以 在 lifetime 参 数 中 以 毫秒 为 单位 指定 
消息 的 生命 期 ， 其 中 0 表示 无 限 生命 期 。comtext 参 数 用 于 指定 可 能 有 的 用 户 上 下 文 。 用 户 上 下 文 
把 通过 消息 通知 机 制 收 到 的 某 次 失败 的 消息 发 送 与 某 个 特定 于 应 用 的 本 地 上 下 文 关 联 起 来 。 举 
例 来 说 ， 要 发 送 一 个 消息 到 流 号 1， 发 送 标志 设 为 MSG_PR_ScTP_TTL， 生 命 期 设 为 1000 毫 秒 ， 净 
荷 协议 标识 符 为 24， 上下文 为 922， 调用 格式 如 下 : 


ret = sctp sendmsg(sockfd, 
data, datasz, &dest, sizeof(dest), 
24, MSG, PR SCTP TTL, 1, 1000, 52); 


这 种 方法 比分 配 必要 的 辅助 数据 空间 并 在 msghdr 结 构 中 设置 合适 的 结构 容易 些 。 注 意 ， 如 
果实 现 把 sctp_sengmsg 函 数 映 射 成 sendmsg 函 数 ， 那 么 sendmsg 的 flags 参 数 被 设 为 0。 


/—————— ———À 


9.10 sctp recvmsg 函数 








Sjsctp sendmsg ff, sctp_recvmsg 函 数 也 为 SCTP 的 高 级 特性 提供 一 个 更 方便 用 户 的 接 
口 。 使 用 本 函数 不 仅 能 获取 对 端的 地 址 ， 也 能 获取 通常 伴随 recvmsg 函 数 调 用 返回 的 msg_flags 
参数 《例如 MSG_NOTIFICATION 和 MSG_EOR 等 )。 本 函数 也 允许 获取 已 读 入 消息 缓冲 区 中 的 伴随 
所 接收 消息 的 sctp_snGrcvinfo 结 构 。 注 意 ， 如 果 应 用 进程 想 要 接收 sctp_sndrcvinfo 信 息 ， 
那么 必须 使 用 scTP_EVENTS 套 接 字 选 项 预订 sctp_data_io_event (默认 情况 下 开启 )。 


#include «netinet/sctp.h» 


ssize_t sctp recvmsg(int sockfd, void *msg, size t msgsz, 
struct sockaddr *from, socklen t *fromlen, 


struct sctp sndrcvinfo *sinfo, 
int *msg flags); 


返回 : 若 成 功 则 为 所 读 字 节 数 ， 若 出 错 则 为 -1 


本 函数 调用 返回 时 ，msg 参 数 所 指 缓冲 区 中 被 填 入 最 多 msgsz 字 节 的 数据 。 消 息 发 送 者 的 地 
址 存放 在 from 参 数 中 ， 地 址 结构 大 小 存放 在 fromlen 参 数 中 。msg_flags 参 数 中 存放 可 能 有 的 消息 
标志 。 如 果 通 知 的 sctp_data_io_event 被 启用 默认 情形 )， 就 会 有 与 消息 相关 的 细节 信息 来 
填充 sctp_sndrcvinfo 结 构 。 注 意 ， 如 果实 现 把 sctp_recvmsg 函 数 映射 成 recvmsg 函 数 ， 那 么 
recvmsg 的 flags 参 数 被 设 为 0。 





9.11 sctp opt info 函 数 





sctp opt info HK dé Jg Jc i: X SCTP fili A getsockopt 函数 的 那些 实现 提供 的 。 
getsockopt 无 法 支持 SCTP 的 原因 在 于 有 些 SCTP 套 接 字 选项 〈 例 如 scTrP_sTamrUus) 需要 一 个 入 
出 〈in_out) 变量 传递 关联 标识 。 对 于 无 法 为 getsockopt 函 数 提供 入 出 变量 的 系统 来 说 ， 只 
能 使 用 sctp_opt_info 函 数 。 对 于 FreeBSD 之 类 允许 在 套 接 字 选 项 中 使 用 出 入 变量 的 系统 来 说 ， 
sctp_opt_info 是 一 个 把 参数 重新 包装 到 合适 的 getsockopt 调 用 中 的 库 函 数 。 从 可 移植 性 考 
虑 ， 应 用 程序 应 该 对 需要 入 出 变量 的 所 有 选项 〈7.10 节 ) 使 用 sctp_opt_info 函 数 。 
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#include «netinet/sctp.h» 


int sctp opt info(int sockfd, sctp assoc t assoc id, int opt, 
void *arg, socklen t *siz); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 








socljz 参 数 给 出 获取 其 上 套 接 字 选 项 信息 的 套 接 字 描 述 符 。assoc_id 参 数 给 出 可 能 存在 的 关 
联 标识 。opt 参 数 是 SCTP 的 套 接 字 选 项 ( 见 7.10 节 )。arg 给 出 套 接 字 选 项 参数 ,siz 是 一 个 socklen_t 
类 型 指针 ， 用 于 存放 参数 的 大 小 。 
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9.12 sctp peeloff HA 





如 前 所 述 , 有 可 能 从 一 个 一 到 多 式 套 接 字 中 抽取 一 个 关联 , 构成 单独 一 个 一 到 一 式 套 接 字 。 
其 语义 很 像 带 有 一 个 额外 参数 的 accept 函 数 。 调 用 者 把 一 到 多 式 套 接 字 的 soct& 和 待 抽取 的 关 
联 标识 id 传 递 给 函数 调用 。 调 用 结束 时 将 返回 一 个 新 的 套 接 字 描述 符 ， 它 是 一 个 与 所 请 求 关联 
对 应 的 一 到 一 式 套 接 字 描述 符 。 


#include <netinet/sctp.h> 


int sctp peeloff(int sockfd, sctp assoc t id); 


返回 : 若 成 功 则 为 一 个 新 的 套 接 字 描 述 符 ， 若 出 错 则 为 -1 
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9.13 shutdown 函数 


6.6 节 讨论 的 shutaown 函 数 可 用 于 一 到 一 式 接口 的 SCTP 端 点 。 由 于 SCTP 设 计 成 不 提供 半 关 
闭 状态 ，SCTP 端 点 对 shutdown 调 用 的 反应 不 同 于 TCP 端 点 。 当 相互 通信 的 两 个 SCTP 端 点 中 任 
何 一 个 发 起 关联 终止 序列 时 ， 这 两 个 端点 都 得 把 已 排队 的 任何 数据 发 送 掉 ， 然 后 关闭 关联 。 关 
联 主动 打开 的 发 起 端点 改 用 shutdown 而 不 是 close 的 可 能 原因 是 : 同一 个 端点 可 用 于 连接 到 一 
个 新 的 对 端 端 点 。 与 TCP 不 同 ， 新 的 套 接 字 打开 之 前 不 必 调 用 close。SCTP 人 允许 一 个 端点 调用 
shutdown，shutdown 结 束 之 后 ， 这 个 端点 就 可 以 重用 原 套 接 字 连接 到 一 个 新 的 对 端 。 注 意 ， 
如 果 这 个 端点 没有 等 到 SCTP 关 联 终止 序列 结束 ， 新 的 连接 就 会 失败 。 图 9-5 给 出 了 这 种 情形 下 
的 典型 函数 调用 。 
注意 ， 图 9-$ 标 出 用 户 接收 MsG_NoTIFICaATION 事 件 。 如 果 用 户 未 曾 预 订 接 收 这 些 事 件 ， 那 
么 返回 的 是 结果 长 度 为 0 的 reada 调 用 。6.6 节 讲解 了 shutdaown 函 数 对 TCP 的 效果 。 对 于 SCTP， 
shutdown Mit howtoB BG8 SL in F 
sHUT RD 与 6.6 节 讨论 的 对 于 TCP 的 语义 等 同 ， 没 有 任何 SCTP 协 议 行 为 发 生 。 
SHUT_WR 禁止 后 续 发 送 操作 ,激活 SCTP 关 联 终止 过 程 ， 以 此 终止 当前 关联 。 HER, A 
操作 不 提供 半 关 闭 状态 ， 不 过 允许 本 地 端点 读 取 已 经 排队 的 数据 ， 这 些 数据 
是 对 端 在 收 到 SCTP 的 sSHUTDOWN 消 息 之 前 发 送 给 本 端的 。 
SHUT_RDWR ”禁止 所 有 read 操 作 和 write 操作 ， 激 活 SCTP 关 联 终止 过 程 。 传 送 到 本 地 端点 
的 任何 已 经 排队 的 数据 都 得 到 确认 ， 然 后 悄然 丢弃 。 
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客 器 


户 服务 
数据 
数据 read 返 回 >0 
数据 的 SACK 


se < 服务 器 处 理 请 求 > 
write 
weite 


read MSG_NOTIFICATION 







read MSG NOTIFICATION 


图 9-5 ”调用 shutGown 关 闭 一 个 SCTP 关 联 
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SCTP 为 应 用 程序 提供 了 多 种 可 用 的 通知 。SCTP 用 户 可 以 经 由 这 些 通知 追踪 相关 关联 的 状 
态 。 通 知 传递 的 是 传输 级 的 事件 ， 包 括 网 络 状 态 变 动 、 关 联 启 动 、 远 程 操作 错误 以 及 消息 不 可 
递送 。 不 论 是 一 到 一 式 接口 还 是 一 到 多 式 接 口 ， 默认 情况 下 除 sctp_aata_io_event 以 外 的 所 
有 事件 都 是 被 禁止 的 。 我 们 将 在 23.7 节 查看 一 个 使 用 通知 的 例子 。 

使 用 scTP_EVENTS 套 接 字 选 项 可 以 预订 8 个 事件 。 其 中 7 个 事件 产生 称 为 通知 (notification) 
的 额外 数据 ， 通 知 本 身 可 经 由 普通 的 套 接 字 描 述 符 获取 。 当 产生 它们 的 事件 发 生 时 ， 这 些 通知 
内 姥 在 数据 中 加 入 到 套 接 字 描述 符 。 在 预订 相应 通知 的 前 提 下 读 取 某 个 套 接 字 时 ， 用 户 数据 和 
通知 将 在 套 接 字 缓冲 区 中 交错 出 现 。 为 了 区 分 来 自 对 端的 数据 和 由 事件 产生 的 通知 ， 用 户 应 该 
使 用 recvmsg 函 数 或 sctp_recvmsg 函 数 。 如 果 所 返回 的 数据 是 一 个 事件 通知 ， 那 么 这 两 个 函数 
返回 的 msg_flags 参 数 将 含有 MsG_NoTITFICaTION 标 志 。 这 个 标志 告知 应 用 进程 刚刚 读 入 的 消息 
不 是 来 自 对 端的 数据 ， 而 是 来 自 本 地 SCTP 栈 的 一 个 通知 。 

每 种 通知 都 采用 标签 -长 度 - 值 (tag-length-value，TLV) 格式 ， 其 中 前 8 个 字 节 给 出 通知 的 
类 型 和 总 长 度 。 开 启 sctp_data_io_event 事 件 〈 这 一 点 对 于 SCTP 的 两 种 接口 都 是 默认 设置 ) 
将 导致 每 次 读 入 用 户 数据 都 收 到 一 个 sctp_snarcvinfo 结 构 。 一 般 情况 下 这 些 信息 通过 调用 
recvmsg 作 为 辅助 数据 获取 。 应 用 进程 也 可 以 调用 sctp_recvmsg， 同 样 的 信息 将 被 填写 到 由 某 
个 指针 指出 的 sctp_sndrcvinfo 结 构 中 。 

含有 SCTP 错 误 起 因 代 码 字段 的 通知 有 两 种 。 该 字段 的 值 列 在 RFC 2960 [Stewart et al. 2000 ] 
的 3.3.10 节 以 及 http://www.iana.org/assignments/sctp-parameters 的 “CAUSE CODES” 一 节 。 

通知 的 格式 如 下 : 


struct sctp tlv ( 
u int16 t sn type; 
u int16 t sn flags; 
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u int32 t 
u 


sn length; 


/* notification event */ 

union sctp notification { 
Struct sctp tlv sn header; 
struct sctp assoc change Sn assoc, change; 
struct sctp paddr change sn paddr change; 
struct sctp remote error sn remote error; 
struct sctp send failed sn send failed; 
struct sctp shutdown event sn shutdown event; 
struct sctp adaption event sn adaption, event; 
struct sctp pdapi event sn pdapi,.event; 


}; 


注意 ，sn_heaGer 字 段 用 于 解释 类 型 值 ， 以 便 诺 解 出 所 处 理 的 实际 消息 。 图 9-6 剖 析 了 


sn_headqer.sn_type 的 取 值 与 ScTP_EVENTS 套 接 字 选项 中 使 用 的 预订 字段 之 间 的 对 应 关系 。 


SCTP ASSOC CHANGE sSctp association event 
SCTP. PEER ADDR CHANGE Sctp address event 
SCTP. REMOTE, ERROR Sctp peer error event 
SCTP SEND FAILED Sctp send failure event 
SCTP. SHUTDOWN, EVENT sctp shutdown event 

SCTP ADAPTION INDICATION sctp adaption layer event 
SCTP PARTIAL, DELIVERY EVENT sctp partial delivery, event 


图 9-6 ”sn_type 字 段 和 事件 预订 字段 





























每 种 通知 有 各 自 的 结构 ， 给 出 在 传输 中 发 生 的 相应 事件 的 具体 信息 。 
1. SCTP_ASSOC CHANGE 

本 通知 告知 应 用 进程 关联 本 身 发 生变 动 : 或 者 已 开始 一 个 新 的 关联 ， 或 者 已 结束 一 个 现 有 
的 关联 。 本 事件 提供 的 信息 定义 如 下 : 


struct sctp assoc, change ( 


u intl6 t 
u intl6 t 
u int32 t 
u inti16 t 
u intl16 t 
u intli6 t 
u intl6 t 


sac type: 

sac flags; 

sac, length; 

sac state; 

sac error; 

sac outbound streams; 
sac inbound streams; 


Sctp assoc t sac assoc id; 


uint8 t 
n 


sac info[]; 


其 中 sac_state 给 出 关联 上 发 生 的 事件 类 型 ， 取 如 下 值 之 一 。 
SCTP. COMM, UP 本 状态 指示 某 个 新 的 关联 刚刚 启动 .其 中 内 入 流 和 外 出 流 字段 分 


别 指出 各 自 方向 有 多 少 流 可 用 。 关 联 标 识字 段 给 出 这 个 关联 在 本 
地 SCTP 栈 的 唯一 访问 标识 。 


SCTP_COMM_LOST 本 状态 指示 由 关联 标识 字段 给 出 的 关联 已 经 关闭 , 原因 既 可 以 是 


触发 了 某 个 不 可 达 门 限 ( 例 如 本 地 SCTP 端 点 多 次 超时 触及 门限 ， 
表明 对 端 不 再 可 达 )， 也 可 以 是 对 端 执 行 了 对 于 该 关联 的 中 止 性 
关闭 (通常 使 用 So_LINGER 套 接 字 选 项 或 以 MSG_aABORT 标 志 使 用 
sendmsg)。 特 定 于 用 户 的 信息 存放 在 本 通知 的 sac_info 字 段 。 
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SCTP RESTART 本 状态 指示 对 端 已 经 重启 。 本 遂 知 最 可 能 的 原因 是 对 端 主机 崩溃 
并 重新 启动 了 。 应 用 进程 应 该 验证 每 个 方向 流 的 数目 , 因为 这 些 
值 可 能 在 重启 过 程 中 发 生变 动 。 
SCTP SHUTDOWN COMP ”本 状态 指示 由 本 地 端点 激发 的 关联 终止 过 程 (或 者 通过 调用 
shutdown， 或 者 通过 以 MsG_EoF 标 志 使 用 sendmsg) 已 经 结束 。 
对 于 一 到 一 式 接口 , 收 到 本 通知 后 , 相应 套 接 字 描 述 符 可 再 次 用 
于 连接 到 另 一 个 对 端 。 
SCTP CANT STR ASSOC ”本 状态 指示 对 端 对 于 本 端的 关联 建立 尝试 (例如 INIT 消 息 ) 未 曾 
给 出 响应 。 
sac_error 字 段 存 放 导 致 本 关联 变动 的 SCTP 协 议 错误 起 因 代码 。sac_outbound_streams 和 
sac_inbound_streams 字 段 存 放 本 关联 上 每 个 方向 协定 的 流 数 目 。sac_assoc_id 字 段 存 放 本 关联 的 
唯一 句柄 ,不 论 是 套 接 字 选 项 还 是 以 后 的 通知 都 可 用 它 标识 本 关联 。sac_info 字 段 存放 用 户 可 用 
的 其 他 信息 。 举 例 来 说 ， 如 果 某 个 关联 被 对 端的 某 个 用 户 自 定义 错误 中 止 ， 这 个 错误 就 存放 在 
该 字段 中 。 
2. SCTP PEER ADDR CHANGE 
本 通知 告知 对 端的 某 个 地 址 经 历 了 状态 变动 。 这 种 变动 既 可 以 是 失败 性 质 〈 例 如 目的 地 不 
对 所 发 送 的 消息 作出 响应 )， 也 可 以 是 恢复 性 质 〈 例 如 早先 处 于 故障 状态 的 某 个 目的 地 恢复 正 
常 )。 伴 随地 址 变动 的 结构 如 下 : 
struct sctp paddr change { 
u inti6 t spc type; 
u inti6 t spc flags; 
u int32 t spc length; 
struct sockaddr storage spc_aaddr; 
u int32 t spc, state; 


u int32 t spc error; 
Sctp assoc t spc assoc id; 


其 中 spc_aaddr 字 段 存 放 本 事件 所 影响 的 对 端 地 址 。spc_state 字 段 存 放 图 9-7 说 明 的 值 之 一 。 


SCTP_ADDR_ADDED 地 址 现 已 加 入 关联 
SCTP ADDR AVAILABLE: 地 址 现 已 可 达 


SCTP ADDR CONFIRMED 地 址 现 已 证 实 有 效 
SCTP ADDR MADE PRIM 地 址 现 已 成 为 主 目的 地 址 
SCTP_ADDR_REMOVED 地 址 不 再 属于 关联 





SCTP ADDR UNREACHABLE 地 址 不 再 可 达 





图 9-7 SCTP 对 端 地 址 状态 通知 


当 一 个 地 址 被 声明 为 SCTP_ADDR_UNREACHABLE 状 态 时 , 发 送 到 该 地 址 的 任何 数据 将 被 重新 
路 由 到 一 个 候选 地 址 。 注 意 ， 其 中 一 些 状态 仅仅 适用 于 支持 动态 地 址 选项 的 SCTP 实 现 〈 例 如 
SCTP_ADDR_ADDED 和 SCTP_ADDR_REMOVED)。 

spc_error 字 段 存放 用 于 提供 关于 事件 更 详细 信息 的 通知 错误 代码 ，spc_assoc_id 存 放 关 联 
标识 。 


220 $93 基本 SCTP 套 接 字 编 程 


3. SCTP_ REMOTE ERROR 

远程 端点 可 能 给 本 地 端点 发 送 一 个 操作 性 错误 消息 。 这 些 消 息 可 以 指示 当前 关联 的 各 种 出 
错 条 件 。 当 开启 本 通知 时 ， 整 个 错误 块 Cerror chunk) 将 以 内 髓 格式 传递 给 应 用 进程 。 本 消息 
的 格式 如 下 : 


struct sctp remote error ( 

u intl6 t sre type; 

wu .intli6 t sre flags; 

u int32 t sre length; 

u inti6 t sre error; 

Sctp assoc t sre assoc id; 

u_int8_t sre data(í]; 
J Psre_error##7XSCTP UM AIR KR, sre assoc idAF JC XR VA, sre dataUA P3 tt 
式 存放 完整 的 错误 。 
4. SCTP_SEND_FAILED 

无 法 递送 到 对 端的 消息 通过 本 通知 送 回 用 户 。 本 通知 之 后 不 久 通常 跟 有 一 个 关联 故障 通知 。 

大 多 数 情况 下 一 个 消息 不 能 被 递送 的 唯一 原因 是 关联 已 经 失效 。 关 联 有 效 前 提 下 消息 递送 失败 
的 唯一 情况 是 使 用 了 SCTP 的 部 分 可 靠 性 扩展 。 本 通知 提供 的 结构 如 下 : 


struct sctp_send failed { 
u intl16 t ssf type; 
u int16 t ssf flags; 
u int32 t ssf length; 
u int32 t ssf error; 
struct sctp sndrcvinfo ssf info; 
sctp assoc t ssf assoc id; 
u int8 t ssf_data[]; 

ur 
其 中 ssf flags 可 取 以 下 两 个 值 之 一 。 

e SCTP DATA UNSENT: 指示 相应 消息 无 法 发 送 到 对 端 (例如 流 控 导致 该 消息 无 法 在 其 生 

命 期 终止 之 前 送出 )， 因 此 对 端 永远 收 不 到 该 消息 。 
e SCTP DATA SENT: 指示 相应 消息 已 经 至 少 发 送 到 对 端 一 次 ， 然 而 对 端 一 直 没 有 确认 。 
这 种 情况 下 ， 对 端 可 能 收 到 了 该 消息 ， 不 过 无 法 给 出 确认 。 

这 种 区 分 对 于 事务 性 协议 可 能 比较 重要 ， 因 为 这 样 的 协议 可 能 需要 基于 是 否 收 到 某 个 给 定 
消息 而 采取 不 同 的 行为 以 恢复 一 个 破裂 的 连接 。ssf_error 字 段 若 不 为 0 则 存放 一 个 特定 于 本 通知 
的 错误 代码 。ssf_info 字 段 若 有 的 话 提供 的 是 发 送 数 据 时 传递 给 内 核 的 信息 例如 流 数 目 、 上 下 
文 ， 等 等 )。ssf_assoc_id 存 放 的 是 关联 标识 ，ssf_data 存 放 未 能 递送 的 消息 本 身 。 
5.SCTP SHUTDOWN EVENT 

当 对 端 发 送 一 个 SHUTDOWN 块 到 本 地 端点 时 ， 本 遂 知 被 传递 给 应 用 进程 。 本 通知 告知 应 
用 进程 在 相应 套 接 字 上 不 再 接受 新 的 数据 。 所 有 当前 已 排队 的 数据 将 被 发 送出 去 ， 发 送 完毕 后 
相应 关联 就 被 终止 。 本 通知 的 格式 如 下 : 


struct sctp shutdown event { 
uintl16 t sse type; 
uint16, t sse flags; 
uint32 t sse length; 
Sctp assoc t sse assoc id; 
): 


其 中 sse_assoc_id 存 放 正 在 关闭 中 不 再 接受 数据 的 那个 关联 的 关联 标识 。 


6. SCTP. ADAPTION INDICATION 
有 些 实现 支持 适应 层 指示 参数 (adaption layer indication parameter). i2: £9 X fE INIT fü 
INIT-ACK 中 交换 ， 用 于 通知 对 端 将 执行 什么 类 型 的 应 用 适应 行为 。 本 通知 的 格式 如 下 : 
struct sctp adaption event { 
u intl6 t sai type; 
u intl6 t sai flags; 
u int32 t sai length; 
u int32 t Sai adaption ind; 
Sctp assoc t sai assoc id; 
LE 
其 中 sai_assoc_id 字 段 给 出 本 适应 层 通 知 的 关联 标识 。sai_adaption_ind 字 段 给 出 对 端 在 INIT 
或 INIT-ACK 消 息 中 传递 给 本 地 主机 的 32 位 整数 。 外 出 适应 层 使 用 scTP_ADAPTION_LAYER 套 接 
字 选 项 (7.10 节 ) 设置 。 适 应 层 INIT/INIT-ACK 选 项 在 [Stewart et al. 2003b ] PUFA, [Stewart et 
al.2003a] 给 出 了 本 选项 在 远程 直接 内 存 访问 /直接 数据 放置 中 的 示例 用 法 。 
T.SCTP PARTIAL DELIVERY EVENT 
部 分 递送 应 用 程序 接口 用 于 经 由 套 接 字 缓 冲 区 向 用 户 传 送 大 消息 。 考 虑 一 个 用 户 写 出 单个 
大 小 为 4MB 的 消息 。 如 此 大 小 的 消息 有 可 能 耗 尽 系统 资源 。 要 是 一 个 SCTP 实 现 没有 在 整个 消息 
到 达 之 前 就 开始 递送 它 的 机 制 ， 那 就 无 法 处 理 这 样 的 消息 。 能 够 如 此 递送 消息 的 实现 称 为 具备 
部 分 递送 API。 部 分 递送 API 由 SCTP 实 现 如 此 调用 : 置 空 nsg_flags 字 段 发 送 一 个 消息 的 各 部 分 
数据 ， 直 到 准备 递送 最 后 一 部 分 数据 为 止 。 发 送 最 后 一 部 分 数据 时 把 msg_flags 字 段 设 置 为 
MSG_EOR。 注 意 ， 如 果 应 用 进程 准备 接收 大 消息 ， 那 就 应 该 使 用 recvmsg 或 sctp_recvmsg， 以 
便 查看 msg_flags 字 段 确 定 是 否 出 现 本 条 件 。 
有 些 情况 下 ， 部 分 递送 API 需 要 向 应 用 进程 传递 状态 信息 。 举 例 来 说 ， 如 果 需 要 中 止 一 次 
部 分 递送 API 调 用 ，sSCTP_PARTIAL_DELIVERY_EVENT 通 知 就 得 送 给 接收 应 用 进程 。 本 通知 的 格 
式 如 下 : 
struct sctp pdapi event ( 
uintl6 t pdapi type; 
uintl6 t pdapi flags; 
uint32 t pdapi length; 
uint32 t pdapi indication; 
sctp assoc t pdapi assoc id; 
E 
其 中 pdapi_assoc_id 字 段 给 出 部 分 递送 API 事 件 发 生 的 关联 标识 。pdapi_indication 存 放 发 生 的 事 
件 。 目 前 该 字段 的 唯一 有 效 值 是 ScCTP_PARTIAL_DELIVERY_ABORTED， 它 指出 当前 活跃 的 部 分 
递送 已 被 中 止 。 
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9.5 小 结 








SCTP 为 应 用 程序 开发 人 员 提 供 了 两 个 接口 式样 : 为 便于 移植 到 SCTP 而 基本 上 与 现 有 TCP 
应 用 程序 兼容 的 一 到 一 式 ， 以 及 允许 发 挥 SCTP 所 有 特性 的 一 到 多 式 。sctp_peeloff 函 数 提供 
了 从 一 种 式样 的 关联 中 抽取 出 另 一 种 式样 的 关联 的 一 种 方法 。SCTP 还 提供 不 少 传输 事件 通知 ， 
应 用 进程 可 以 预订 它们 。 这 些 事件 有 助 于 应 用 进程 更 好 地 管理 所 维护 的 关联 。 

既然 SCTP 是 多 宿 的 ， 第 4 章 中 讲解 的 标准 套 接 字 函 数 就 不 再 都 够 用 。 诸 如 sctp_bindx、 
sctp_connectx、sctp_getladdrs、sctp_getpaddrs 等 函数 提供 了 更 好 地 控制 和 查看 众多 地 
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址 的 方法 ， 这 些 地 址 共同 构成 一 个 SCTP 关 联 。 诸 如 sctp_senGdmsg 和 scpt_recvmsg 等 工具 函数 
可 以 简化 这 些 高 级 特性 的 使 用 。 我 们 将 在 第 10 章 和 第 23 章 中 通过 例子 详细 探讨 本 章 引 入 的 许多 
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习题 


9.1 什么 情形 下 应 用 程序 开发 人 员 最 可 能 使 用 sctp_peeloft 函 数 ? 
92 ”在 讨论 一 到 多 式 接口 时 我 们 说 过 “ 当 一 个 客户 关闭 其 关联 时 ， 其 服务 器 也 将 自动 关闭 同一 个 关联 ”， 
请 说 明 原因 。 
93 ”为 什么 必须 使 用 一 到 多 式 接 口才 能 在 四 路 握手 的 第 三 个 分 组 中 撒 带 数 据 ? (los: 在 关联 建立 阶段 
必须 具备 数据 发 送 能 力 才能 这 么 做 。) 
94 ”在 什么 情形 下 会 发 生 四 路 握手 的 第 三 个 和 第 四 个 分 组 都 梢 带 数 据 ? 
9.5 9.7 节 指出 本 地 地 址 集 可 能 是 所 绑 定 地 址 的 某 个 合适 的 子 集 。 这 会 在 什么 情形 下 发 生 ? 





SCTP 客户 /服务 器 程序 例子 





10.4 概述 


我 们 将 在 本 章 使 用 第 4 章 和 第 9 章 中 介绍 的 基本 函数 编写 一 个 完整 的 一 到 多 式 SCTP 客 户 / 服 
务 器 程序 例子 。 这 个 简单 的 例子 类 似 于 第 5 章 中 给 出 的 回 射 服务 器 ， 执 行 如 下 步骤 。 

(1) 客户 从 标准 输入 读 入 一 行文 本 ， 并 发 送 给 服务 器 。 该 文本 行 遵循 [#]text 格 式 ， 方 括 弧 
中 的 数字 是 在 其 上 发 送 该 文本 消息 的 SCTP 流 号 。 

(2) 服务 器 从 网 络 接收 这 个 文本 消息 ， 把 在 其 上 到 达 该 消息 的 流 号 增 1， 再 在 新 的 流 号 上 发 
送 回 同一 个 文本 消息 给 客户 。 

(3) 客户 从 网 络 读 入 这 行 回 射 文本 ， 并 显示 在 标准 输出 上 ， 内 容 包括 流 号 、 流 序列 号 和 文本 
8. 

图 10-1 描 述 了 这 个 简单 的 客户 /服务 器 ， 并 标 出 了 用 于 输入 和 输出 的 函数 。 


fgets 












标准 输入 
标准 输出 fprintf 


sctp_sendmsg 






图 10-1 简单 的 SCTP 流 分 回 射 客 户 /服务 器 


我 们 在 客户 与 服务 器 之 间 画 了 两 个 代表 所 用 单 向 流 的 箭头 ， 不 过 整个 关联 是 全 双 工 的 。 
fgets 和 fputs 这 两 个 函数 来 自 标准 IO 函数 库 。 我 们 没有 使 用 3.9 节 定义 的 wziten 和 readline 
这 两 个 函数 ， 为 没有 必要 。 相 反 ， 我 们 改 用 在 9.9 节 和 9.10 节 定义 的 sctp_sendmsg 和 
sctp_recvmsg 函 数 。 

本 例子 使 用 一 到 多 式 接口 的 服务 器 。 如 此 抉择 是 有 原因 的 。 第 5 章 中 的 例子 可 以 略 作 修 改 就 
运行 在 SCTP 之 上 : 把 socket 函 数 调用 改 为 指定 TPPROTO_SCTP 而 不 是 TPPROTO_TCP 作 为 第 三 个 
参数 。 然 而 如 此 简单 的 改动 难以 发 挥 SCTP 提 供 的 除 多 宿 以 外 的 其 他 特性 。 使 用 一 到 多 式 接口 允 
许 使 用 SCTP 的 所 有 特性 。 


10.2 SCTP 一 到 多 式 流 分 回 射 服务 器 程序 ，main 函数 


我 们 的 SCTP 客 户 和 服务 器 程序 依循 图 9-2 所 示 的 函数 调用 流程 。 图 10-2 给 出 了 一 个 迭代 服 
务 器 程序 。 
设置 流 号 增长 选项 
13-14 ”默认 情况 下 服务 器 响应 所 用 的 流 号 是 在 其 上 接收 消息 的 流 号 加 1。 如 果 通 过 命令 行 传递 
一 个 整数 参数 ， 那 么 服务 器 将 把 该 参数 解释 成 stream_increment 的 值 。 也 就 是 说 该 参 
数 决 定 是 否 增 长 外 来 消息 的 流 号 。 我 们 将 在 10.5 节 讨论 头 端 阻塞 时 使 用 这 个 选项 。 
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—— —— — — sctp/sctpserv01.c 
1 #include "unp.h* 
2 int 
3 main(int argc, char **argv) 
4t 
5 int Sock fd, msg fiags; 
6 char readbuf [BUFFSIZE]; 
7 struct sockaddr in servaddr, cliaddr; 
8 struct sctp sndrcvinfo sri; 
9 struct sctp event subscribe evnts; 
10 int stream increment-1; 
1l Socklen t len; 
12 size t rd sz; 
13 if (argc -- 2) 
14 stream increment = atoi(argv[1]); 
15 SOCk fd = Socket (AF_INET, SOCK SEQPACKET, IPPROTO_SCTP) ; 
16 bzero(&servaddr, sizeof(servaddr)); 
17 Servaddr.sin family = AF  INET; 
18 servaddr.sin addr.s addr - htonl(INADDR ANY); 
19 servaddr.sin port = htons(SERV, PORT); 
20 Bind(sock fd, (SA *) &servaddr, sizeof(servaddr)); 
21 bzero(&evnts, sizeof(evnts)); 
22 evnts.sctp data io event - 1; 
23 Setsockopt(sock fd, IPPROTO SCTP, SCTP EVENTS, &evnts, sizeof(evnts)); 
24 Listen(sock fd, LISTENQ); 
25 for-( s; Ft 
26 len - sizeof(struct sockaddr in); 
27 rd sz = Sctp recvmsgí(sock fd, readbuf, sizeof(readbuf), 
28 (SA *)&cliaddr, &len, &sri, &msg flags); 
29 if (stream increment) { 
30 sri.sinfo_stream++; 
31 if (sri.sinfo_stream >= 
32 sctp_get_no_strms(sock_fd, (SA *)&cliaddr, len)) 
33 sri.sinfo_stream = 0; 
34 } 
35 Sctp sendmsg(sock fd, readbuf, rd sz, 
36 (SA *)&cliaddr, len, 
37 sri.sinfo ppid, 
38 sri.sinfo flags, sri.sinfo stream, 0, 0); 
39 ) 
40 ) 
— sctp/sctpserv01.c 


图 10-2 ”SCTP 流 分 回 射 服 务 器 程序 


创建 一 个 SCTP 套 接 字 
15 ”创建 一 个 SCTP 一 到 多 式 套 接 字 。 

捆绑 一 个 地 址 

16-20 ”在 待 捆绑 到 该 套 接 字 的 网 际 网 套 接 字 地 址 结构 中 填 入 通 配 地 址 (INADDR_ANY) 和 服务 
器 的 众所周知 端口 (SERV_PORT)。 捆 绑 通 配 地 址 是 在 告知 系统 : 本 SCTP 端 点 将 在 建立 
的 任何 关联 中 使 用 所 有 可 用 的 本 地 地 址 。 对 于 多 宿主 机 而 言 ， 这 种 捆绑 意味 着 一 个 远 
程 端点 能 够 与 这 个 本 地 主机 任何 一 个 可 路 由 地 址 建立 关联 并 发 送 分 组 。 我 们 对 于 SCTP 
端口 号 的 选择 基于 图 2-10。5.2 节 的 例子 中 就 端口 号 的 考虑 同样 适用 于 本 例子 。 
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预订 感 兴趣 的 通知 

21-23 ”服务 器 修改 其 一 到 多 式 SCTP 套 接 字 的 通知 预订 。 它 仅仅 预订 sctp_data_io_ event, 
从 而 允许 服务 器 查看 sctp_sndrcvinfo 结 构 。 服 务 器 可 从 该 结构 确定 消息 到 达 所 在 的 
流 号 。 

开启 外 来 关联 

24 ”服务 器 以 listen 调 用 开启 外 来 关联 。 随 后 控制 进入 主 处 理 循环 。 

等 待 消息 

26-28 ”服务 器 初始 化 客户 套 接 字 地 址 结构 的 大 小 ， 然 后 阻塞 在 等 待 来 自任 何 一 个 远程 对 端的 
消息 之 上 。 

若 需要 则 增长 流 号 

29-34 ” 当 一 个 消息 到 达 时 ， 服 务 器 检查 stream_increment 标 志 变 量 以 确定 是 否 需 要 增长 流 
号 。 如 果 设 置 了 该 标志 〈 没 有 通过 命令 行 传递 参数 或 所 传递 命令 行 参数 不 为 0)， 服 务 
器 就 把 消息 的 流 号 增 1。 如 果 流 号 增长 到 大 于 等 于 最 大 流 号 (通过 调用 内 部 函数 
sctp_get_no_strms 获 取 )， 服 务 器 就 把 流 号 重 置 为 0。sctp_get_no_strms 函 数 没有 
给 出 ， 它 使 用 7.10 节 讨论 的 scTP_sTaATUSs 套 接 字 选 项 找 出 商定 的 流 数 目 。 

发 送 回响 应 

35-38 ”服务 器 使 用 来 自 sri 结 构 的 净 茶 协议、 标志 以 及 可 能 改动 过 的 流 号 发 送 回 消息 本 身 。 

注意 ， 本 服务 器 不 希望 得 到 关联 通知 ， 因 此 禁止 了 会 向 上 传递 消息 到 套 接 字 缓冲 区 的 所 有 
事件 。 本 服务 器 依赖 于 sctp_snarcvinfo 结 构 中 的 信息 和 cliaddr 中 返回 的 地 址 定位 对 端的 关联 
地 址 并 返 送 回 射 消息 。 
本 程序 一 直 运 行 到 用 户 以 外 部 信号 杀 灭 服务 器 进程 为 止 。 
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图 10-3 所 示 为 SCTP 客 户 程序 的 main 函 数 。 

验证 参数 并 创建 一 个 套 接 字 

9-15 客户 验证 传递 给 它 的 参数 : 调用 者 必须 提供 消息 发 送 到 的 主机 ， 并 可 以 启用 “ 回 射 到 
全 部 〈echo to all)” 选 项 〈 见 10.5$ 节 )。 客 户 然后 创建 一 个 SCTP 一 到 多 式 套 接 字 。 

设置 服务 器 地 址 

16-20 ”客户 使 用 inet_pton 函 数 把 通过 命令 行 传递 的 服务 器 地 址 从 表达 格式 转换 成 数值 格 
式 。 它 与 服务 器 的 众所周知 端口 号 组 合成 的 地 址 就 是 请 求 的 目的 地 。 

预订 感 兴趣 的 通知 i 

21-23 客户 显 式 设 置 其 一 到 多 式 SCTP 套 接 字 的 通知 预订 。 与 服务 器 一 样 ， 客 户 也 不 希望 得 到 
MSG_NOTIFICaTION 事 件 ， 因 此 要 禁止 这 些 事件 通知 ， 而 仅仅 开启 sctp_sndrcvinfo 
结构 的 接收 。 

调用 回 射 处 理 函 数 

24-28 如果 没 有 设置 echo_to_al1 标 志 ,， 客户 就 调用 将 在 10.4 节 讨论 的 sctpstr_cli 函 数 ， 否 
则 调用 将 在 10.5$ 节 讨论 的 sctpstr_cli_echoalL1 函 数 。 

结束 处 理 

29-31 ”从 回 射 处 理 函 数 返 回 之 后 ， 客 户 关闭 其 SCTP 套 接 字 ， 从 而 终止 使 用 该 套 接 字 的 任何 
SCTP 关 联 。 客 户 随后 从 main 函 数 返回 值 为 0 的 代码 ， 表 明 本 程序 的 运行 是 成 功 的 。 
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——— — — — scetp/sctpclient01.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4í 
5 int Sock fd; 
6 Struct sockaddr in servaddr; 
7 struct sctp event, subscribe evnts; 
8 int echo to, all-0; 
9 if (argc « 2) 
10 ° err quit("Missing host argument - use '$s host [echo]'\n", argv[0]); 
11 if (argc > 2) ( 
12 printf("Echoing messages to all streams n"); 
13 echo to all = 1; 
14 } 
15 sock_fd = Socket (AF_INET, SOCK_SEQPACKET, IPPROTO_SCTP); 
16 bzero(&servaddr, sizeof (servaddr) ); 
17 servaddr.sin_family = AF_INET; 
18 servaddr.sin_addr.s_addr = htonl(INADDR ANY); 
19 servaddr.sin port = htons(SERV_PORT) ; 
20 Inet_pton(AF_INET, argv[1], &servaddr.sin_addr); 
21 bzero(&evnts, sizeof(evnts)); 
22 evnts.sctp_data_io_event = 1; 
23 Setsockopt (sock fd,iPPROTO SCTP, SCTP EVENTS, &evnts, sizeof(evnts)); 
24 if (echo to all -- 0) 
25 Sctpstr cli(stdin, sock fd, (SA *)&servaddr, sizeof(servaddr)); 
26 else 
27 Sctpstr cli echoall(stdin, sock fd, (SA*)&servaddr, 
28 sizeof (servaddr)); 
29 Ciose(sock fd); 
30 return(0); 





————————— — —sctp/sctpclient0l.c 
图 10-3 SCTP 流 分 回 射 客 户 程序 main 函 数 
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图 10-4 所 示 为 默认 的 SCTP 客 户 处 理 函 数 。 
初始 化 eri 结 构 并 进入 循环 
11-12 ”客户 以 清 零 名 为 sri 的 sctp_sndrcvinfo 结 构 变 量 开 始 ， 随 后 进入 一 个 循环 ， 以 阻塞 
式 fgets 调 用 从 由 调用 者 传 入 的 文件 指针 fp 中 读 取 文本 行 。main 函 数 传 入 本 函数 的 fp 
是 stdin， 因 此 用 户 输入 在 本 循环 中 一 直 被 读 入 并 处 理 ， 直 到 用 户 键入 终端 EOF 字 符 
(Control-D)。 用 户 如 此 操作 将 结束 本 函数 ， 从 而 返回 到 调用 者 。 





验证 输入 

13-16 客户 检查 用 户 输入 符合 [#]text 格 式 。 若 不 符合 则 显示 一 个 出 错 消息 ， 然 后 再 次 进入 
阻塞 式 fgets 调 用 所 在 的 循环 。 

转换 流 号 


17. 客户 把 用 户 在 输入 中 请 求 的 流 号 转换 成 sri 结 构 的 sinfo_stream 字 段 。 
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sctp/sctp strcli.c 
1 #include "unp.h" 





2 void 
3 sctpstr cli(FILE *fp, int sock fd, struct sockaddr *to, socklen t tolen) 
4t 
5 struct  sockaddr in peeraddr; 
6 struct sctp_sndrevinfo sri; 
7 char sendline[MAXLINE], recvline(MAXLINE]; 
8 socklen t len; 
9 int out s2,rd sz; 
10 int msg flags; 
11 bzero(&sri,sizeof(sri)); 
12 while (fgets(sendline, MAXLINE, fp) != NULL) { 
13 if (sendline[0] != '[') { 
14 printf("Error, line must be of the form '(streamnum]text'\n"); 
15 continue; 
16 } 
17 sri.sinfo stream = strtol (&sendline[1),NULL,0); 
18 out, sz = strlen(sendline) ; 
19 Sctp sendmsg(sock fd, sendline, out sz, 
20 to, tolen, 0, 0, sri.sinfo stream, 0, 0); 
21 len = sizeof (peeraddr) ; 
22 rd sz = Sctp recvmsg(sock fd, recvline, sizeof(recvline), 
23 (SA *)&peeraddr, &len, &sri, &msg flags); 
24 printf("From str:%d seq:%d (assoc:Ox$x):", 
25 sri.sinfo stream, sri.sinfo ssn, (u int)sri.sinfo assoc id); 
26 printf("t.*s",rd sz,recvline); 
27 ) 
28 } 
setp/sctp_streli.c 
图 10-4 sctpstr cli: 客户 处 理 循环 
发 送 消息 
18-20 初始 化 目的 地 址 结构 的 长 度 以 及 用 户 数据 的 大 小 之 后 , 客户 使 用 sctp_senamsg 函 数 发 
送 消息 。 
阻塞 在 消息 等 待 上 
21-23 ”客户 阻塞 ， 等 待 来 自 服务 器 的 回 射 消 息 。 
显示 返回 的 消息 并 循环 


24-26 客户 显示 回 射 给 它 的 返回 消息 ， 包 括 流 号 、 流 序列 号 以 及 文本 消息 本 身 。 显 示 所 回 射 
的 消息 之 后 ， 客 户 循环 回去 获取 用 户 的 下 一 个 请 求 。 
运行 代码 
在 一 个 FreeBSD 主 机 上 不 带 命令 行 参 数 启动 SCTP 回 射 服务 器 ， 然 后 启动 其 客户 ， 客 户 的 命 
令 行 参数 仅仅 指出 服务 器 主机 的 地 址 。 


freebsd4$ gctpclient01 10.1.1.5 


[0]Hello 在 流 0 上 发 送 一 个 消息 

From str:1 seq:0 (assoc:0xc99e15a0):(0]Hello 服务 器 在 流 1 上 回 射 这 个 消息 
[4]Message two 在 流 4 上 发 送 一 个 消息 

From str:5, seq:0 (assoc:0xc99el5a0) : [4]Message two 服务 器 在 流 5 上 回 射 这 个 消息 
[4]Message three 在 流 4 上 发 送 另 一 个 消息 
From str:5 seq:1 (assoc:0xc99e15a0):[4]Message three ”服务 器 在 流 5 上 辐射 这 个 消息 
^D <CtriHD> 是 我 们 的 EOF 字 符 


freebsd4$ 


292 
l 
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注意 ， 客 户 在 流 0 和 流 4 上 发 送 消息 与 服务 器 在 流 1 和 流 5 上 回 射 消息 是 同时 发 生 的 。 对 于 不 
带 命 令 行 参数 的 SCTP 回 射 服务 器 来 说 ， 这 是 预期 的 行为 。 男 外 在 流 5 上 收 到 的 第 二 个 消息 对 应 
的 流 序列 号 也 如 预期 地 增 1 了 。 


10.5 FAI 





前 述 服务 器 尽管 简单 却 提供 了 往 多 个 流 中 的 任何 一 个 流 发 送 文 本 消息 的 一 个 方法 。SCTP 
中 的 流 (stream) 不 同 于 TCP 中 的 字 节 流 ， 它 是 关联 内 部 具有 先后 顺序 的 一 个 消息 序列 。 这 种 以 
流 本 身 而 不 是 以 流 所 在 关联 为 单位 进行 消息 排序 的 做 法 用 于 避免 仅 使 用 单个 TCP 字 节 流 导致 的 
头 端 阻塞 (head-of-line blocking) 现象 。 

头 端 阻塞 发 生 在 一 个 TCP 分 节 丢 失 ， 导 致 其 后 续 分 节 不 按 序 到 达 接 收 端的 时 候 。 该 后 续 分 
节 将 被 接收 端 一 直 保 持 到 第 一 个 分 节 被 发 送 端 重 传 并 到 达 接 收 端 为 止 。 该 后 续 分 节 的 延迟 递送 
确保 接收 应 用 进程 能 够 按 顺序 得 到 由 发 送 应 用 进程 发 送 的 数据 。 这 种 为 达到 完全 有 序 效果 而 引 
入 的 延迟 非常 有 用 ， 不 过 也 有 不 利之 处 。 假 设 在 单个 TCP 连 接 上 发 送 语义 上 独立 的 消息 ， 璧 如 
说 服务 器 可 能 发 送 3 幅 不 同 的 图 像 供 Web 浏 览 器 显示 。 为 了 营造 这 几 幅 图 像 在 用 户 屏幕 上 并 行 显 
示 的 效果 ， 服 务 器 先 发 送 第 一 幅 图 像 的 一 个 断 片 ， 再 发 送 第 二 幅 图 像 的 一 个 断 片 ， 然 后 发 送 第 
三 幅 图 像 的 一 个 断 片 ; 服务 器 重复 这 个 过 程 ， 直 到 这 3 幅 图 像 全 部 成 功 地 发 送 到 浏览 器 为 止 。 要 
是 承载 第 一 幅 图 像 某 个 断 片 内 容 的 TCP 分 节 丢 失 了 ， 将 会 发 生 什么 昵 ?” 客 户 将 保持 已 不 按 序 到 
达 的 所 有 数据 ， 直 到 丢失 的 分 节 被 重 传 并 成 功 到 达 为 止 。 这 样 不 仅 延 组 了 第 一 幅 图 像 数据 的 递 
送 ， 也 延缓 了 第 二 幅 和 第 三 幅 图 像 数据 的 递送 。 图 10-5 展 示 了 这 个 问题 。 


服务 器 客户 





递送 
保持 的 所 有 分 市 
现 被 递送 

图 10-5 在 单个 TCP 连 接 上 发 送 3 幅 图 像 


尽管 不 属于 HTTP 的 工作 原理 , 诸如 SCP[ Spero 1996 ] 和 SMUX [ Gettys and Nielsen 1998 ] 
等 扩展 手段 已 被 提议 ， 它 们 能 够 在 TCP 之 上 提供 类 似 的 并 行 功能 。 提 议 这 些 复 用 协议 旨 在 避 
免 由 多 个 不 共享 状态 的 并 行 TCP 连 接 造 成 的 有 害 行 为 [ Touch 1997 ]。 尽管 为 每 幅 图 像 创 建 一 
个 TCP 连 接 (HTTP 客 户 通常 这 么 做 ) 避免 了 头 端 阻塞 问题 ， 每 个 连接 却 不 得 不 独立 发 现 RTT 
和 可 用 带宽 ; 一 个 连接 上 的 分 节 丢 失 (这 是 该 连接 所 在 路 径 上 存在 拥塞 的 一 个 信号 ) 无 法 必 
然 导 致 其 他 连接 减缓 传输 速率 。 这 将 导致 拥塞 网 络 上 较 低 的 整体 利用 率 。 


应 用 进程 并 不 希望 发 生 头 端 阻塞 。 理 想 情况 下 ， 只 有 第 一 幅 图 像 的 后 续 断 片 会 被 延缓 ， 而 
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按 顺序 到 达 的 第 二 幅 和 第 三 幅 图 像 的 各 个 断 片 将 被 立即 递送 给 用 户 。 

SCTP 的 多 流 特性 能 够 尽 可 能 地 减少 头 端 阻塞 。 图 10-6 展 示 了 同样 3 幅 图 像 的 传送 过 程 。 这 
回 服务 器 使 用 多 个 流 ， 使 得 头 端 阻塞 仅仅 发 生 于 期 望 的 地 方 ， 这 样 第 二 幅 和 第 三 幅 图 像 的 递送 
不 再 受 第 一 幅 图 像 的 影响 ， 而 第 一 幅 图 像 部 分 接收 的 数据 将 保持 到 可 以 顺序 递送 为 止 。 


服务 器 客户 
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图 10-6 在 3 个 SCTP 流 上 发 送 3 幅 图 像 


图 10-7 给 出 了 SCTP 回 射 客户 程序 的 sctpstr_cli_echoal1l 函 数 ， 我 们 用 它 展示 SCTP 如 何 

把 头 端 阻塞 减少 到 最 小 。 这 个 函数 类 似 早先 的 sctpstr_cli 函 数 ， 差 别 在 于 客户 不 再 需要 标准 

输入 指出 每 个 文本 消息 的 流 号 。 本 函数 将 把 用 户 输入 的 文本 消息 发 送 到 多 达 sERV_MAX_SCTP_ 

STRM 个 的 流 中 。 发送 完 消息 后 ,客户 等 待 来 自 服务 器 的 所 有 响应 的 到 达 。 在 运行 服务 器 程序 时 ， 

我 们 传递 一 个 额外 的 命令 行 参 数 ， 使 得 服务 器 在 接收 消息 的 同一 个 流 上 给 出 响应 。 这 么 一 来 用 

户 就 能 更 好 地 追踪 服务 器 发 送 的 响应 以 及 它们 到 达 客 户 的 顺序 。 

初始 化 数据 结构 并 等 待 输 入 

13-15 ”客户 照样 初始 化 用 于 建立 各 个 流 的 sri 结 构 ， 客 户 的 数据 发 送 和 接收 将 通过 这 些 流 进 
行 。 客 户 还 清 零用 于 收集 用 户 输入 的 数据 缓冲 区 。 客 户 随后 同样 进入 阻塞 于 用 户 输入 
的 主 循环 。 

预 处 理 消息 

16-20 ”客户 设置 消息 大 小 之 后 删除 缓冲 区 末尾 的 换行 符 〈 如 果 有 的 话 )。 

发 送 消息 到 每 个 流 

21-26 客户 使 用 sctp_sendmsg 函 数 发 送 消息 ， 发 送 的 是 长 度 为 sScTP_MaAXLINE 字 节 的 整个 组 
冲 区 。 在 发 送 消息 之 前 ， 客 户 添 加 上 字符 串 “.msg.” 和 流 号 ， 这 样 我 们 就 能 观察 各 个 
响应 消息 的 到 达 顺 序 ， 并 与 客户 发 送 请 求 消息 的 顺序 相 比较 。 注 意 ， 客 户 只 是 把 消息 
发 送 到 固定 数目 的 流 中 ， 而 不 管 其 中 有 多 少 流 已 经 真正 建立 。 要 是 对 端 向 下 商定 流 的 
数目 ， 那 么 客户 的 若干 个 消息 发 送 可 能 失败 。 


要 是 发 送 或 接收 窗口 过 小 ， 本 程序 就 有 失败 的 潜在 可 能 。 要 是 对 端的 接收 窗口 过 小 ， 客 
户 有 可 能 被 阻塞 。 既 然 客户 在 完成 消息 发 送 之 前 不 会 读 取 任 何 信 息 ， 服 务 器 在 等 待 客户 完成 
读 取 已 经 送出 的 响应 期 间 也 可 能 潜在 地 阻塞 ， 这 种 情形 的 后 果 是 两 个 端点 发 生死 锁 。 本 程序 
不 具备 可 扩展 性 ， 意 图 只 是 以 简单 直观 的 方式 说 明 多 个 流 和 头 端 阻塞 的 关系 。 
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sctp/sctp_strcliecho.c 
1 #include "unp.h" 


2 #define SCTP_MAXLINE 800 


3 void 
4 sctpstr_cli_echoall(FILE *fp, int sock_fd, struct sockaddr *to, 


5 socklen_t tolen) 

6 { 

* struct sockaddr in peeraddr; 

8 struct sctp sndrcvinfo sri; 

9 char sendline[SCTP MAXLINE], recvline[SCTP_MAXLINE] ; 
10 sockien t len; 

11 int rd sz, i, strsz; 

12 int msg flags; 

13 bzero(sendline, sizeof (sendline)); 

14 bzero(&sri, sizeof (sri)); 

15 while (fgets(sendline, SCTP MAXLINE - 9, fp) != NULL) { 
16 strsz = strlen(sendline); 

17 if (sendline[strsz-1] == '\n') { 

18 sendline[strsz-1] = '\0'; 

19 strsz--; 

20 ) 

21 for (i = 0;i < SERV MAX SCTP STRM; i++) ( 

22 snprintf(sendline « strsz, sizeof(sendline) - strsz, 
23 ",msg.*&d", i); 

24 Sctp sendmsg(sock fd, sendline, sizeof(sendline), 
25 to, tolen, 0, 0, i, 0, 0); 

26 ) 

27 for (i = 0; i < SERV MAX SCTP STRM; i++) ( 

28 len = sizeof(peeraddr); 

29 rd sz - Sctp recvmsg(sock fd, recvline, sizeof(recvline), 
30 (SA *)&peeraddr, &len, &sri, &msg flags); 
31 printf ("From str:$d seq:$d (assoc:0x%x):", 

32 sri.sinfo stream, sri.sinfo ssn, 

33 (u int)sri.sinfo assoc id); 

34 printf("%.*s\n", rd sz, recvline); 

35 } 

36 } 

37 ) 


sctp/sctp strcliecho.c 
10-7 sctpstr_cli_echoall MM 


读 回回 射 的 消息 并 显示 
27-35 ”客户 读 入 来 自 服务 器 的 所 有 响应 消息 , 并 照样 显示 它们 。 读 入 最 后 一 个 回 射 的 消息 后 ， 
客户 循环 回去 获取 用 户 的 下 一 个 输入 。 


10.5.1 运行 代码 


我 们 在 两 个 不 同 的 FreeBSD 主 机 上 执行 客户 程序 和 服务 器 程序 。 这 两 个 主机 由 一 个 可 配置 
的 路 由 器 分 割 开 ， 如 图 10-8 所 示 。 路 由 器 能 够 配置 成 插入 延迟 和 丢失 。 我 们 首先 查看 在 路 由 器 
不 插入 丢失 前 提 下 程序 的 执行 情况 。 

我 们 以 一 个 额外 的 命令 行 参数 “0” 启 动 服务 器 ， 迫 使 服务 器 不 增长 应 答 所 用 的 流 号 。 

我 们 接着 启动 客户 ， 通 过 命令 行 传 入 回 射 服务 器 主机 的 地 址 和 一 个 额外 的 参数 ， 使 得 客户 
把 任何 消息 发 送 到 每 个 流 。 
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SCTP/IPH (t) 
FreeBSD-lap 





图 10-8 SCTP 客 户 /服务 器 实验 环境 


freebsd4$ gctpclient01 10.1.4.1 echo 
Echoing messages to all streams 


Hello 

From str:0 seq:0 (assoc:0xc99e15a0) :Hello.msg.0 
From str:1 seq:0 (assoc:0xc99e15a0) :Hello.msg.1 
From str:2 seq:0 (assoc:0xc99e15a0):Hello.msg.2 
From str:3 seq:0 (assoc:0xc99e15a0):Hello.msg.3 
From str:4 seq:0 (assoc:0xc99e15a0) :Hello.msg.4 
From str:5 seq:0 (assoc:0xc99e15a0):Hello.msg.5 
From str:6 seq:0 (assoc:0xc99ei5a0):Hello.msg.6 
From str: 7 seq:0 (assoc:0xc99ei5a0):Hello.msg.7 
From str:8 seq:0 (assoc:0xc99e15a0) :Hello.msg.8 
From str:9 seq:0 (assoc:0xc99e15a0):Hello.msg.9 
^D 

freebsd4$ 


在 没有 丢失 的 前 提 下 ， 客 户 看 到 响应 消息 按照 发 送 它们 的 顺序 到 达 。 我 们 随后 把 路 由 器 参 
数 改 为 两 个 方向 的 分 组 丢失 率 均 为 10%， 并 重新 启动 客户 。 


freebsd4% sctpclient01 10.1.4.1 echo 
Echoing messages to all streams 


Hello 

From str:0 seq:0 (assoc:0xc99e15a0):Hello.msg.0 
From str:2 seq:0 (assoc:0xc99e15a0):Hello.msg.2 
From str:3 seq:0 (assoc:0xc99e15a0) :Hello.msg.3 
From str:5 seq:0 (assoc:0xc99e15a0) :Hello.msg.5 
From str:1 seq:0 (assoc:0xc99e15a0) :Hello.msg.1 
From str:8 seq:0 (assoc:0xc99e15a0) :Hello.msg.8 
From str:4 seq:0 (assoc:0xc99e15a0) :Hello.msg.4 
From str:7 seq:0 (assoc: 0xc99e15a0) :Hello.msg.7 
From str:9 seq:0 (assoc:0xc99e15a0) :Hello.msg.9 
From str:6 seq:0 (assoc:0xc99e15a0) :Hello.msg.6 
4D 

freebsd4% 


让 客户 往 每 个 流 中 发 送 两 个 消息 ， 我 们 就 能 验证 同一 个 流 内 的 消息 因 重 新 排序 所 需 而 被 适 
当地 保持 着 。 我 们 还 把 客户 程序 改 为 增添 一 个 消息 序号 作为 消息 后 级， 以 便 标识 同一 个 流 内 的 
两 个 消息 。 图 10-9 展 示 了 改动 部 分 的 代码 。 


添加 额外 的 消息 序号 并 发 送 

22-25 ”客户 添加 一 个 额外 的 消息 序号 1 以 帮助 追踪 待 发 送 的 消息 ， 然 后 使 用 sctp_ sendmsg 
函数 把 消息 发 送出 去 。 

修改 消息 序号 再 次 发 送 


26-29 客户 把 消息 序号 从 1 改 为 2， 然 后 把 更 改 后 的 消息 发 送 到 同一 个 流 中 。 
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sctp/sctp strcliecho2.c 
21 for (i -0; i < SERV MAX SCTP STRM; i++) ( 
22 snprintf(sendline + strsz, sizeof(sendline) - strsz, 
23 ".msg.$d 1", i); 
24 Sctp sendmsg(sock fd, sendline, sizeof(sendline), 
25 to, tolen, 0, 0, i, 0, 0); 
26 snprintf(sendline + strsz, sizeof(sendline) - strsz, 
27 ".msg.$d 2", i); 
28 Sctp sendmsg(sock fd, sendline, sizeof(sendline), 
29 to, tolen, 0, 0, i, 0, 0); 
30 } 
1 for (i = 0; i < SERV_MAX_SCTP_STRM * 2; i++) { 
32 len = sizeof (peeraddr) ; 
sctp/sctp strcliecho2.c 
图 10-9 sctpstr_cli 函 数 改 动 部 分 
读 回 消息 并 显示 
31 这 儿 的 代码 只 需 略 加 改动 : 把 客户 期 待 收回 的 来 自 回 射 服务 器 的 消息 数目 翻 倍 。 


10.5.2 


Hello 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
From 
^D 


运行 改动 过 的 代码 
我 们 像 先前 那样 执行 服务 器 程序 和 改动 过 的 客户 程序 ， 得 到 的 来 自 客户 的 输出 如 下 。 


freebsd4$ sctpclient01 10.1.4.1 echo 
Echoing messages to all streams 


str:0 
str:0 
str:1 
str:4 
str:5 
str:7 
str:8 
str:9 
str:3 
str:3 
str:1 
str:5 
str:2 
str:6 
str:6 
str:2 
str:7 
str:8 
str:9 
str:4 


Ireebsd4$ 


从 中 可 以 看 出 ， 消 息 存在 丢失 现象 ， 


seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seg: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seq: 
seg: 


(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 
(assoc:0xc99e15a0) 


:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Heilo.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
:Hello.msg. 
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不 过 只 有 同一 个 流 内 的 消息 才 因 此 延缓 ， 其 他 流 中 的 


消息 不 受 影 响 。SCTP 流 可 以 说 是 一 个 既 能 避免 头 端 阻塞 又 能 在 相关 的 消息 之 间 保 持 顺 序 的 有 效 


机 制 。 
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—————— I TURNIER 


10.6 “控制 流 的 数目 


我 们 已 经 查看 了 如 何 使 用 SCTP 流 , 另 一 个 问题 是 关联 初始 化 阶段 如 何 控制 一 个 端点 请 求 的 
流 数 目 。 我 们 早先 的 例子 使 用 的 是 外 出 流 数 目的 系统 默认 值 。 对 于 FreeBSD 上 SCTP 的 KAME 实 
现 而 言 ， 这 个 默认 值 是 10。 如 果 客 户 和 服务 器 想 要 使 用 多 于 10 个 的 流 情 况 又 如 何 昵 ? 在 图 10-10 
中 ， 我 们 把 服务 器 程序 改 为 允许 在 关联 启动 阶段 增长 端点 请 求 的 流 数 目 。 注 意 ， 这 个 变动 必须 
针对 尚未 建立 关联 的 套 接 字 进行 。 








—— — — — sctp/sctpserv02.c 

14 if (argc -- 2) 
15 stream increment = atoi(argv[1]); 
16 SOCk fd = Socket (AF_INET, SOCK SEQPACKET, IPPROTO SCTP); 
17 bzero(&initm,sizeof(initm)); 
18 initm.sinit num ostreams - SERV MORE STRMS, SCTP; 
19 Setsockopt(sock fd, IPPROTO SCTP, SCTP INITMSG, &initm, sizeof(initm)); 

一 一 sctp/sctpserv02.c 





图 10-10 ”服务 器 程序 请 求 更 多 流 的 改动 部 分 


初始 设置 

14-16 ”服务 器 照样 根据 额外 的 命令 行 参数 设置 标志 并 打开 套 接 字 。 

修改 流 数目 请 求 

17-19 这 几 行 含有 增加 到 服务 器 程序 中 的 新 代码 。 服务 器 首先 清 零 sctp_initmsg 结 构 ， 以 确 
保 setsockopt 调 用 不 会 无 意 中 改 动 任 何其 他 值 。 服 务 器 接着 把 sinit_max_ostreams 
字段 设置 成 期 望 请 求 的 流 数目 ， 然 后 以 初始 消息 参数 设置 套 接 字 选 项 。 

设置 套 接 字 选 项 的 另 一 种 方法 是 : 使 用 senamsg 函 数 并 提供 辅助 数据 以 请 求 不 同 于 默认 设 
置 的 流 参 数 。 这 种 类 型 的 辅助 数据 仅仅 适用 于 一 到 多 式 套 接 字 。 
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在 早先 的 例子 中 ， 我 们 依赖 于 客户 关闭 套 接 字 来 终止 关联 。 然 而 客户 可 能 并 不 总 是 愿意 关 
闭 套 接 字 。 服 务 器 也 可 能 不 愿意 在 发 送 了 应 答 消 息 之 后 继续 保持 关联 开放 。 这 种 情况 下 ， 我 们 
需要 查看 终止 一 个 关联 的 另外 两 个 机 制 。 对 于 一 到 多 式 接口 ， 这 两 个 可 能 的 方法 都 可 用 : 其 中 
一 个 是 雅致 的 ， 另 一 个 则 是 破坏 性 的 。 

如 果 服 务 器 希望 在 发 送 完 一 个 应 答 消 息 后 终止 一 个 关联 ， 那 么 可 以 在 与 该 消息 对 应 的 
sctp_sndrcvinfo 结 构 的 sinfo_flags 字 段 中 设置 MsG_EoF 标 志 。 该 标志 迫使 所 发 送 消息 被 客 
户 确认 之 后 ， 相 应 关联 也 被 终止 。 另 一 个 方法 是 把 MSG_ABORT 标 志 应 用 于 sinfo_flags 字 段 。 
该 标志 将 以 ABORT 块 迫使 立即 终止 关联 。SCTP 的 ABORT 块 类 似 TCP 的 RST 分 节 ， 能 够 无 延迟 
地 中 止 任何 关联 ， 尚 未 发 送 的 任何 数据 都 被 丢弃 。 然 而 以 ABORT 块 关闭 一 个 SCTP 会 话 并 没有 
诸如 防止 TCP 的 TIME_WAIT 状 态 之 类 的 不 良 影 响 ，ABORT 块 导致 的 是 “优雅 的 ”中 止 性 关闭 。 
图 10-11 给 出 的 是 回 射 服务 器 程序 的 改动 部 分 ， 用 于 在 送出 响应 消息 的 同时 激活 优雅 的 关联 终 
止 。 图 10-12 给 出 的 是 回 射 客户 程序 的 改动 部 分 ， 用 于 在 关闭 套 接 字 之 前 发 送 一 个 ABORT 块 。 
发 送 回 响应 ， 同 时 终止 关联 

“38 ”本 行 的 改动 仅仅 是 给 sctp_sengqmsg 函 数 的 标志 参数 或 上 MSG_EOF 标 志 。 该 标志 促成 服务 器 
在 应 答 消 息 被 客户 成 功 确认 之 后 关闭 关联 。 


300 
i 
301 
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sctp/sctpserv03.c 
25 for (; ; ) { 
26 len - sizeof(struct sockaddr in); 
27 rd sz = Sctp recvmsg(sock fd, readbuf, sizeof(readbuf), 
28 (SA *)&cliaddr, &len, &sri, &msg flags); 
29 if (stream increment) ( 
30 sri.sinfo_stream++; 
31 if (sri.sinfo_stream >= 
32 sctp_get_no_strms(sock_fd, (SA *)&cliaddr, len)) 
33 sri.sinfo_stream = 0; 
34 } 
35 Sctp_sendmsg(sock_fd, readbuf, rd sz, 
36 (SA *)&cliaddr, len, 
37 sri.sinfo, ppid, 
38 (sri.sinfo flags | MSG EOF), sri.sinfo stream, 0, 0); 
39 } 
sctp/sctpserv03.c 
图 10-11 服务 器 程序 应 答 同 时 终止 关联 的 改动 部 分 
- sctp/scptclient02.c 
25 if (echo to all -- 0) 
26 sctpstr cli(stdin, sock fd, (SA *)&servaddr, sizeof(servaddr)); 
27 else 
28 sctpstr cli echoall(stdin, sock fd, (SA *)&servaddr, 
29 sizeof (servaddr) ); 
30 strcpy (byemsg, "goodbye"); 
31 Sctp sendmsg(sock fd, byemsg, strlen(byemsg), 
32 (SA *)&servaddr, sizeof(servaddr), 0, MSG ABORT, 0, 0, 0); 
33 Close(sock fd); 
sctp/sctpclient02.c 
图 10-12 ”客户 程序 预先 中 止 关 联 的 改动 部 分 
关闭 套 接 字 前 中 止 关 联 


30-32 ”客户 准备 一 个 消息 作为 关联 中 止 的 用 户 错误 起 因 ， 然 后 以 MsG_ABORT 标 志 调 用 
sctp_sendmsg 函 数 。 该 标志 导致 发 送 一 个 ABORT 块 ， 从 而 立即 终止 当前 关联 。 这 个 
ABORT 块 包含 用 户 发 起 错误 起 因 代 码 ， 其 上 层 原因 字段 中 的 消息 为 “goodbye”。 

关闭 套 接 字 描 述 符 

33 ”即使 关联 已 经 中 止 ， 我 们 仍 得 关闭 套 接 字 描 述 符 以 释放 与 之 关联 的 系统 资源 。 
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10.8 小结 





——————————————————— a 


我 们 查看 了 约 为 1$0 代 码 的 简单 SCTP 客 户 和 服务 器 程序 。 这 两 个 程序 都 使 用 一 到 多 式 SCTP 
接口 。 服 务 器 程序 按照 迭代 式样 构造 ， 这 也 是 使 用 一 到 多 式 接口 时 的 常用 式样 。 服 务 器 接收 每 
个 请 求 消息 之 后 ， 应 答 消 息 或 者 发 送 到 请 求 消息 到 来 的 流 上 ， 或 者 发 送 到 编号 稍 高 的 流 上 。 我 
们 接着 查看 了 头 端 阻塞 问题 。 通 过 修改 客户 程序 强调 本 问题 ， 我 们 表明 SCTP 流 可 用 于 避免 这 个 
问题 。 我 们 使 用 众多 可 用 于 控制 SCTP 行 为 的 套 接 字 选 项 之 一 查看 了 如 何 操纵 流 的 数目 。 最 后 ， 
我 们 再 次 修改 服务 器 和 客户 程序 , 使 得 它们 或 能 中 止 一 个 关联 (并 包含 一 个 用 户 上 层 原因 代码 )， 
或 能 〈 对 于 我 们 的 服务 器 情形 ) 在 发 送 一 个 消息 之 后 优雅 地 终止 关联 。 

我 们 将 在 第 23 章 深入 探讨 SCTP。 
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习题 


10.1 在 图 10-4 所 示 的 客户 程序 中 ， 如 果 SCTP 返 回 错误 ， 将 会 发 生 什 么 ? 如 何 改正 程序 以 解决 这 个 问题 
呢 ? 

10.2 如 果 我 们 的 服务 器 在 给 出 响应 之 前 退出 ， 将 会 发 生 什么 ? 有 什么 办 法 能 够 让 客户 知晓 这 种 情况 呢 ? 

10.3 在 图 10-7 的 第 22 行 ， 我 们 把 out_sz 设 置 成 800 字 节 。 你 认为 我 们 这 么 做 的 理由 是 什么 ? 有 更 好 的 办 
法 找 出 较为 理想 的 大 小 值 来 设置 该 变量 吗 ? 

10.4 Nagle 算 法 (7.10 节 ) 对 于 图 10-7 所 示 的 客户 程序 有 什么 影响 ? 禁止 Nagle 算 法 有 助 于 本 程序 吗 ? 把 窜 
户 和 服务 器 程序 改 为 都 禁止 Nagle 算 法 ， 再 构造 并 运行 它们 。 

10.5 在 10.6 节 我 们 指出 ， 应 用 进程 应 该 在 建立 关联 之 前 修改 流 的 数目 。 如 果 应 用 进程 在 建立 关联 之 后 修 
改 流 的 数目 ， 将 会 发 生 什么 ? 

10.6 在 讨论 修改 流 的 数目 时 我 们 指出 ， 一 到 多 式 套 接 字 是 唯一 可 使 用 辅助 数据 以 请 求 更 多 流 的 式样 。 其 
理由 是 什么 ? GET: 辅助 数据 必须 随 消 息 一 道 发 送 。) 

10.7 为 什么 服务 器 可 以 不 追踪 自己 打开 的 关联 而 离开 呢 ? 不 追踪 关联 存在 危险 吗 ? 

10.8 在 10.7 节 ， 我 们 把 服务 器 程序 改 为 在 应 答 每 个 消息 后 终止 相应 的 关联 。 这 么 做 会 导致 任何 问题 吗 ? 
这 是 一 个 好 的 设计 决策 吗 ? 
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11.4 概述 


到 目前 为 上 上， 本 书 中 所 有 例子 都 用 数值 地 址 来 表示 主机 〈 例 如 206.6.226.33)， 用 数值 端口 
号 来 标识 服务 器 〈 例 如 端口 13 代 表 标 准 的 daytime 服 务 器 ， 端 口 9877 代 表 我 们 的 回 射 服务 器 )。 
然而 出 于 许多 理由 ， 我 们 应 该 使 用 名 字 而 不 是 数值 : 名 字 比 较 容 易 记 住 ， 数 值 地 址 可 以 变动 而 
名 字 保 持 不 变 ， 随 着 往 IPv6 上 转移 ， 数 值 地 址 变 得 相当 长 ， 手 工 键入 数值 地 址 更 易 出 错 。 本 章 
讲述 在 名 字 和 数值 地 址 间 进 行 转 换 的 函数 : gethostbyname 和 gethostbyadar 在 主机 名 字 与 
IPv4 地 址 之 间 进 行 转换 , getservbyname 和 getservbyport 在 服务 名 字 和 端口 号 之 间 进 行 转换 。 
本 章 还 讲述 两 个 协议 无 关 的 转换 函数 : getadarinfo 和 getnameinfo， 分 别 用 于 主机 名 字 和 下 
地 址 之 间 以 及 服务 名 字 和 端口 号 之 间 的 转换 。 


11.2 域名 系统 


域名 系统 (Domain Name System, DNS) 主要 用 于 主机 名 字 与 耳 地 址 之 间 的 映射 。 主 机 名 
既 可 以 是 一 个 简单 名 字 Csimple name)， 例 如 solaris 或 bsai， 也 可 以 是 一 个 全 限定 域名 (Fully 
Qualified Domain Name，FQDN)， 例 如 solaris .unpbook .com。 





严格 说 来 ，FQDN 也 称 为 绝对 名 字 (absolute name )， 而 且 必 须 以 一 个 点 号 结尾 ， 不 过 用 
户 们 往往 省 略 结尾 的 点 号 。 这 个 点 号 告知 DNS 解析 器 该 名 字 是 全 限定 的 ， 从 而 不 必 搜索 解析 
器 自己 维护 的 可 能 域名 列表 。 


我 们 在 本 节 仅 仅 讨 论 网 络 编程 所 需 的 DNS 基础 知识 。 对 于 更 多 细节 感 兴趣 的 读者 可 参阅 
TCPv1 的 第 14 章 和 [ Albitz and Liu 2001]。IPv6 所 要 求 的 附加 内 容 出 自 RFC 1886 [Thomson and 
Huitema 1995] 和 RFC 3152 [Bush 2001 ]. 


11.2.1 资源 记录 
DNS 中 的 条 目 称 为 资源 记录 (resource record，RR)。 我 们 感 兴趣 的 RR 类 型 只 有 若干 个 。 
A A 记录 把 一 个 主机 名 映射 成 一 个 32 位 的 IPv4 地 址 。 举 例 来 说 ， 以 下 是 


unpbook .com 域 中 关于 主机 freebsd 的 4 个 DNS 记 录 ， 其 中 第 一 个 是 一 个 A 记录 : 
freebsd IN A 12.106.32.254 
IN AAAA 3ffe:b80:1£8d:1:a00:20ff: fea7:686b 
IN MX 5 freebsd.unpbook.com. 
IN MX 10 mailhost .unpbook.com. 


AAAA RA “WA” (quad A) 记录 的 AAAA 记 录 把 一 个 主机 名 映射 成 一 个 128 位 的 IPv6 
地 址 。 选 择 “ 四 A” 这 个 称呼 是 由 于 128 位 地 址 是 32 位 地 址 的 四 倍 。 
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称 为 “指针 记录 ”(pointer record》 的 PTR 记 录 把 IP 地 址 映射 成 主机 名 。 对 于 IPv4 
地 址 ，32 位 地 址 的 4 个 字 节 先 反 转 顺序 ， 每 个 字 节 都 转换 成 各 自 的 十 进 制 ASCII 
值 (0—255) 后 ， 再 添上 in-addqr .arpa， 结 果 字 符 串 用 于 PTR 查 询 。 

对 于 PPv6 地 址 ，128 位 地 址 中 的 32 个 四 位 组 先 反 转 顺序 ， 每 个 四 位 组 都 被 转换 成 
相应 的 十 六 进 制 ASCII 值 (O~9, a~) 后 ， 再 添上 ip6 .arpa。 

举例 来 说 ， 上 例 中 主机 freebsa 的 两 个 PTR 记 录 分 别 是 254.32.106.12.in- 
addr.arpa filb.6.8.6.7.a.e.f.£.£.0.2.0.0.a.0.1.0.0.0.d.8.£.1.0.8. 
b.0.e.f.£.3.ip6.arpa. 


早期 标准 指定 在 ip6.int 域 中 反 向 查找 IPv6 地 址 。IPv6 的 反 向 查找 域 现 已 改 为 
ip6.arpa， 以 与 IJPv4 保 持 一 致 。 这 两 个 域 之 间 存 在 一 个 过 渡 期 ， 期 间 两 者 都 可 以 使 用 。 
MX 记录 把 一 个 主机 指定 作为 给 定 主机 的 “邮件 交换 器 ”(mail exchanger)。 上 例 
中 主机 freebsa 有 2 个 MX 记录 : 第 一 个 的 优先 级 值 为 5, 第 二 个 的 优先 级 值 为 10。 
当 存 在 多 个 MX 记录 时 ， 它 们 按照 优先 级 顺序 使 用 ， 值 越 小 优先 级 越 高 。 

本 书 不 用 MX 记录 ， 我 们 提 及 这 种 类 型 RR 是 因为 它们 在 现实 世界 中 应 用 相当 广泛 。 


CNAME(4K "canonical name” (WWF), 它 的 常见 用 法 是 为 常用 的 服务 ( 例 
如 ftp 和 www) 指派 CNAME 记 录 。 如 果 人 们 使 用 这 些 服务 名 而 不 是 真实 的 主机 
名 ， 那 么 相应 的 服务 挪 到 另 一 个 主机 时 他 们 也 不 必 知 道 。 举 例 来 说 ， 我 们 名 为 


linux 的 主机 有 以 下 2 个 CNAME 记 录 : 
ftp IN CNAME linux.unpbook.com. 
www IN CNAME linux.unpbook.com, 


目前 处 于 IPv6 部 署 的 极 早 期 ， 系 统管 理 员 们 会 给 同时 支持 了 Pv4 和 IPv6 的 主机 使 用 什么 样 的 
命名 约定 尚 不 清楚 。 在 本 节 前 面 的 例子 中 , 我 们 给 主机 freebsd 同 时 指定 了 A 记录 和 AAAA 记 录 。 
一 种 可 能 的 约定 是 : 把 A 记录 和 AAAA 记 录 都 置 于 主机 的 通常 名 字 之 下 〈 如 前 所 示 )， 青 创建 男 
一 个 名 字 以 -4 结尾 、 含 有 A 记录 的 RR， 另 一 个 名 字 以 -6 结尾 、 含 有 AAAA 记 录 的 RR， 以 及 另 一 
个 名 字 以 -611 结 尾 、 含 有 AAAA 记 录 及 主机 的 链 路 局 部 地 址 的 RR〔 这 个 RR 有 时 便于 调试 )。 以 
下 是 我 们 男 一 个 主机 的 所 有 这 些 记录 : 


aix 


aix-4 
aix-6 
aix-611 


192.168.42.2 

3ffe:b80:1f8d:2:204:acff:fe17:bf38 

5 aix.unpbook.com. 

10 mailhost.unpbook.com. 

192.168.42.2 

3ffe:b80:1£8d:2:204:acff:fel7:bf38 
fe80::204:acff:fel7:bf38 


PROCU 


这 种 约定 给 予 我 们 额外 的 应 用 程序 协议 选择 控制 权 ， 具 体 讨论 见 下 一 章 。 


11.2.2 解析 器 和 名 字 服 务 器 


每 个 组 织 机 构 往 往 运 行 一 个 或 多 个 名 字 服 务 器 (name server)， 它 们 通常 就 是 所 谓 的 BIND 
(Berkeley Internet Name Domain 的 简称 ) 程序。 诸如 我 们 在 本 书 中 编写 的 客户 和 服务 器 等 应 用 程 
序 通过 调用 称 为 解析 器 〈resolver) 的 函数 库 中 的 函数 接触 DNS 服务 器 。 常 见 的 解析 器 函数 是 将 
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在 本 章 讲解 的 gethostbyname 和 gethostbyaddr， 前 者 把 主机 名 映射 成 IPv4 地 址 ， 后 者 则 执行 
相反 的 映射 。 

图 11-1 展 示 了 应 用 进程 、 解 析 器 和 名 字 服 务 器 之 间 的 一 个 典型 关系 。 现 在 考虑 编写 应 用 程 
序 代码 。 解 析 器 代码 通常 包含 在 一 个 系统 函数 库 中 ， 在 构造 应 用 程序 时 被 链 编 (link-editing) 
到 应 用 程序 中 。 另 有 些 系统 提供 一 个 由 全 体 应 用 进程 共享 的 集中 式 解 析 器 守护 进程 ， 并 提供 向 
这 个 守护 进程 执行 RPC 的 系统 函数 库 代 码 。 不 论 哪 种 情况 ， 应 用 程序 代码 使 用 通常 的 函数 调用 
来 执行 解析 器 中 的 代码 ， 调 用 的 典型 函数 是 gethostbyname 和 gethostbyaddr。 





图 11-1 客户 、 解 析 器 和 名 字 服 务 器 的 典型 关系 


解析 器 代码 道 过 读 取 其 系统 相关 配置 文件 确定 本 组 织 机 构 的 名 字 服 务 器 们 的 所 在 位 置 。 
(我 们 使 用 复数 “名 字 服 务 器 们 ”是 因为 大 多 数组 织 机 构 运行 多 个 名 字 服 务 器 ,尽管 我 们 在 图 中 
只 展示 了 一 个 本 地 服务 器 。 出 于 可 靠 和 元 余 的 目的 ， 必 须要 设置 多 个 名 字 服 务 器 。) 文件 
/etc/resolv.conf 通 常 包含 本 地 名 字 服 务 器 主机 的 IP 地 址 。 


路 , 然 名 字 要 比 地 址 好 记 易 配 ， 要 是 能 够 在 /etc/yresolv.conf 文 件 中 也 使 用 名 字 服 务 器 
主机 的 名 字 该 有 多 好 ， 然 而 这 样 做 会 引入 一 个 鸡 与 蛋 的 问题 : 名 字 服 务 器 主机 自身 的 名 字 到 
地 址 转换 由 谁 执行 呢 ? 


解析 器 使 用 UDP 向 本 地 名 字 服 务 器 发 出 查询 。 如 果 本 地 名 字 服 务 器 不 知道 答案 ， 它 通常 就 
会 使 用 UDP 在 整个 因特网 上 查询 其 他 名 字 服 务 器 。 如 果 答案 太 长 , 超出 了 UDP 消息 的 承载 能 力 ， 
本 地 名 字 服 务 器 和 解析 器 会 自动 切换 到 TCP。 


11.2.23 DNS 替代 方法 


不 使 用 DNS 也 可 能 获取 名 字 和 地 址 信息 。 常 用 的 替代 方法 有 静态 主机 文件 〈 通 常 是 
/etc/hosts 文 件 ， 如 图 11-21 所 示 )、 网 络 信息 系统 (Network Information System, NIS) 以 及 轻 
权 目 录 访 问 协 议 〈Lightweight Directory Access Protocol, LDAP). PEKE, KAE E R iHa 
配置 一 个 主机 以 使 用 不 同类 型 的 名 字 服 务 是 实现 相关 的 。Solaris 2.x、HP-UX 10 及 后 续 版 本 、 
FreeBSD 5.x 及 后 续 版 本 使 用 文件 /etc/nsswitch.conf，AIX 使 用 文件 /etc/netsvc. conf。 
BIND 9.2.2 提 供 了 自己 的 名 为 信息 检索 服务 (Information Retrival Sevice, IRS) 的 版 本 ， 使 用 文 
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件 /etc/irs.conf。 如 果 使 用 名 字 服 务 器 查找 主机 名 ， 那 么 所 有 这 些 系统 都 使 用 文件 
/etc/resolv.conf 指 定名 字 服 务 器 的 人 P 地 址 。 幸运 的 是 ， 这 些 差异 对 于 应 用 程序 开发 人 员 来 说 
通常 是 透明 的 ， 我 们 只 需 调 用 诸如 gethostbyname 和 gethostbyadqdr 这 样 的 解析 器 函数 。 
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11.3 gethostbyname 函数 








认 知 计算 机 主机 通常 采用 直观 可 读 的 名 字 。 本 书 到 目前 为 止 的 所 有 例子 都 有 意 使 用 IP 地 址 
而 不 是 名 字 ， 这 样 我 们 能 够 确切 地 知道 ， 对 于 诸如 connect 和 sendto 这 样 的 函数 ， 进 入 套 接 字 
地 址 结构 的 是 什么 内 容 ; 对 于 诸如 accept 和 recvfrom 这 样 的 函数 ,返回 的 是 什么 内 容 。 然 而 大 
多 数 应 用 程序 应 该 处 理 名 字 而 不 是 地 址 。 当 我 们 往 IPv6 转 移 时 , 这 一 点 变 得 尤为 正确 , 因为 了 Pv6 
地 址 (十 六 进 制 数 串 〉 比 IPv4 点 分 十 进 制 数 串 要 长 得 多 。( 上 一 节 中 的 AAAA 记 录 例 子 和 
ip6.arpa 域 PTR 记 录 例 子 足 以 说 明 问 题 了 。) 

查找 主机 名 最 基本 的 函数 是 gethostbyname。 如 果 调 用 成 功 ， 它 就 返回 一 个 指向 hostent 
结构 的 指针 ， 该 结构 中 含有 所 查找 主机 的 所 有 IPv4 地 址 。 这 个 函数 的 局 限 是 只 能 返回 IPv4 地 址 ， 
而 11.6 节 讲解 的 getaagrinfo 函 数 能 够 同时 处 理 IPv4 地 址 和 IPv6 地 址 。 POSIX 规 范 预 警 可 能 会 在 
将 来 的 某 个 版 本 中 撤销 gethostbyname 函 数 。 


gethostbyname 函 数 不 大 可 能 真正 消失 ， 除 非 整 个 因特网 改 为 使 用 IPv6， AR oy HEE Aik 
从 无 期 的 将 来 。 从 POSIX 规 范 中 撤销 该 函数 意 在 声明 新 的 程序 不 该 再 使 用 它 。 我 们 鼓励 在 新 
的 程序 中 改 用 getadGrinfo 函 数 。 


#include <netdb.h> 


struct hostent *gethostbyname(const char *hostname) ; 


返回 : 车 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 设置 h_errno 





本 函数 返回 的 非 空 指针 指向 如 下 的 hostent 结 构 。 


struct hostent ( 


char  *h name; /* official (canonical) name of host */ 

char **h aliases; /* pointer to array of pointers to alias names */ 
int h_addrtype; /* host address type: AF_INET */ 

int h_length; /* length of address: 4 */ 


char **h_addr_list; /* ptr to array of ptrs with IPv4 addrs */ 

u 

按照 DNS 的 说 法 ，gethostbyname 执 行 的 是 对 A 记录 的 查询 。 它 只 能 返回 IPv4 地 址 。 

图 11-2 所 示 为 hostent 结 构 和 它 所 指向 的 各 种 信息 之 间 的 关系 ， 其 中 假设 所 查询 的 主机 名 
有 2 个 别名 和 3 个 IPv4 地 址 。 在 这 些 字段 中 ， 所 查询 主机 的 正式 主机 名 (official host) APTA Hl 
名 (alias〉 都 是 以 空 字符 结尾 的 C 字 符 串 。 

返回 的 h_name 称 为 所 查询 主机 的 规范 〈canonical) 名 字 。 以 上 一 节 的 CNAME 记 录 例 子 为 
例 ， 主 机 ftp.unpbook.com 的 规范 名 字 是 1inux.unpbook.com。 另 外 ， 如 果 我 们 在 主机 aix 上 
以 一 个 非 限 定 主机 名 (例如 solaris) 调用 gethostbyname， 那 么 作为 规范 名 字 返 回 的 是 它 的 
FQDN 〈 即 solaris .unpbook.com)。 
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图 11-2 hostent 结 构 和 它 所 包含 的 信息 


有 些 版 本 的 gethostbyname 吨 数 实现 允许 hostname 参 数 是 一 个 点 分 十 进 制 数 串 ， 也 就 是 
如 下 格式 的 调用 是 可 行 的 : 

hptr = gethostbyname("192.168.42.2"); 

添加 如 此 处 理 hostname 参 数 的 代码 是 因为 Rlogin 客 户 只 接受 主机 名 ， 并 以 它 为 参数 调用 
gethostbyname， 而 不 接受 点 分 十 进 制 数 串 【Vixie 1996 ]。POSIX 规 范 允 许 但 不 强求 如 此 处 
理 hostname 参 数 ， 因 此 考虑 可 移植 性 的 应 用 程序 不 能 依赖 这 个 特性 。 


gethostbyname 与 我 们 介绍 过 的 其 他 套 接 字 函 数 的 不 同 之 处 在 于 : 当 发 生 错 误 时 ， 它 不 设 
置 errno 变 量 ， 而 是 将 全 局 整数 变量 h_errno 设 置 为 在 头 文件 <netab.h> 中 定义 的 下 列 常 值 之 一 : 

® HOST NOT FOUND; 

€ TRY AGAIN; 

@ NO, RECOVERY; 

e NO DATA (等 同 于 NO_ADDRESS )。 

NO_DATA 错 误 表 示 指 定 的 名 字 有 效 ， 但 是 它 没有 A 记录 。 只 有 MX 记录 的 主机 名 就 是 这 样 的 
一 个 例子 。 

如 今 多 数 解析 器 提供 名 为 hstrerror 的 函数 ， 它 以 某 个 h_errno 值 作为 唯一 的 参数 ， 返 回 
的 是 一 个 const char * 指 针 ， 指 向 相应 错误 的 说 明 。 在 下 面 的 例子 中 ， 我 们 给 出 由 该 函数 返回 
BY ee mb IT. 


例子 


图 11-3 给 出 一 个 简单 例子 ， 它 为 任意 数目 的 命令 行 参数 调用 gethostbyname， 并 显示 返回 
的 所 有 信息 。 
8-14 给 每 个 命令 行 参 数 调用 gethostbyname。 
15-17 ”输出 规范 主机 名 ， 后 跟 别名 列表 。 
18-24 pptr 指 向 一 个 指针 数组 ， 其 中 每 个 指针 指向 一 个 地 址 。 对 于 每 一 个 地 址 ， 我 们 调用 
inet_ntop 并 输出 返回 的 字符 串 a 
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1 #include "unp.h" 

2 int 

3 main(int argc, char **argv) 

4{ 

5 char *ptr, **pptr; 

6 char Str[INET ADDRSTRLEN]; 

7 struct hostent  *hptr; 

8 while (--argc > 0) ( 

9 ptr = *««argv; 

10 if ( (hptr = gethostbyname(ptr)) -- NULL) ( 

11 err msg("gethostbyname error for host: %s: %s", 
12 ptr, hstrerfor(h errno)); 

13 continue; 

14 } 

15 printf ("official hostname: %s\n", hptr-»h name); 
16 for (pptr = hptr-»h aliases; *pptr !- NULL; pptr++) 
17 printf("\talias: %s\n", *pptr); 

18 switch (hptr->h_addrtype) { 

19 case AF_INET: 

20 pptr = hptr->h_addr_list; 

21 for ( ; *pptr != NULL; pptr++) 
22 printf("Ntaddress: $sMn", 

23 Inet ntop(hptr-»h addrtype, *pptr, str, 
24 break; 
25 default: 

26 err ret("unknown address type"); 
27 break; 
28 } 

29 } 

30 exit (0); 

31 } 





图 11-3 ”调用 gethostbyname 并 显示 返回 的 信息 











es/hostent.c 


sizeof (str))); 


names/hostent.c 


我 们 首先 以 主机 aix 的 名 字 作为 参数 运行 该 程序 ， 该 主机 只 有 一 个 IPv4 地 址 。 


freebsd % hostent aix 
official hostname: aix.unpbook.com 


address: 192.168.42.2 


注意 ， 正 式 主机 名 就 是 CQDN。 另 外 ， 即 使 该 主机 有 IPv6 地 址 ， 返 回 的 也 仅仅 是 IPv4 地 址 。 
接着 是 有 多 个 IPv4 地 址 的 一 个 Web 服 务 器 主机 的 输出 。 


freebsd $ hostent cnn.com 
official hostname: cnn.com 


address: 64.236.16.20 
address: 64.236.16.52 
address: 64.236.16.84 
address: 64.236.16.116 
address: 64.236.24.4 

address: 64.236.24.12 
address: 64.236.24.20 
address: 64.236.24.28 


下 一 个 名 字 在 11.2 节 的 例子 中 有 一 个 CNAME 记 录 。 


freebsd % hostent www 


w 
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official hostname: linux.unpbook.com 
alias: www.unpbook.com 
address: 206.168.112.219 


正如 预期 的 那样 ， 正 式 主机 名 不 同 于 我 们 的 命令 行 参数 。 
为 了 查看 由 hstrerror 函 数 返 回 的 错误 信息 串 ， 我 们 先 指定 一 个 不 存在 的 主机 名 ， 再 指定 
一 个 仅 有 MX 记录 的 名 字 。 


freebsd % hostent nosuchname.invalid 
gethostbyname error for host: nosuchname.invalid: Unknown host 


freebsd $ hostent uunet.uu.net 
gethostbyname error for host: uunet.uu.net: No address associated with name 


11.4 gethostbyaddr 函数 — 








gethostbyaddr 函 数 试图 由 一 个 二 进 制 的 卫 地 址 找到 相应 的 主机 名 ， 与 gethostbyname 的 
行为 刚好 相反 。 


$include «netdb.h» 








struct hostent *gethostbyaddr(const char *addr, socklen t len, int family); 


返回 : 车 成 功 则 为 非 空 指 针 ， 若 出 错 则 为 NULL 且 设置 h_errno 





本 函数 返回 一 个 指向 与 之 前 所 述 同样 的 hostent 结 构 的 指针 。 对 于 这 个 随 gethostbyname 
函数 讲解 过 的 hostent 结 构 ， 我 们 感 兴趣 的 字段 通常 是 存放 规范 主机 名 的 h_name。 

addr 参 数 实际 上 不 是 char * 类 型 ， 而 是 一 个 指向 存放 IPv4 地 址 的 某 个 in_aqar 结 构 的 指针 ; 
len 参 数 是 这 个 结构 的 大 小 : 对 于 IPv4 地 址 为 4。family 参 数 为 AF_INET。 

按照 DNS 的 说 法 ，gethostbyaddr 在 in_adar .arpa 域 中 向 一 个 名 字 服 务 器 查询 PTR 记 录 。 


EE TA st t a RB Mon Tee Te tala TIS ERR E 
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像 主机 一 样 ， 服 务 也 通常 靠 名 字 来 认 知 。 如 果 我 们 在 程序 代码 中 通过 其 名 字 而 不 是 其 端口 
号 来 指 代 一 个 服务 ， 而 且 从 名 字 到 端口 号 的 映射 关系 保存 在 一 个 文件 中 (通常 是 
/etc/services), 那么 即使 端口 号 发 生变 动 , 我 们 需 修改 的 仅仅 是 /etc/services 文 件 中 的 某 
- 行 ， 而 不 必 重 新 编译 应 用 程序 。get servtbyname 函 数 用 于 根据 给 定名 字 查 找 相应 服务 。 
赋予 各 个 服务 的 端口 号 规范 列表 由 IANA 通 过 http://www.iana.org/assignments/ port-num- 
bers 维 护 (2.9 节 )。/etc/services 文 件 通 常 包含 由 ILANA 维 护 的 规范 赋值 列表 的 某 个子 集 。 








#include «netdb.h» 
struct servent *getservbyname(const char *servname, const char *profoname) ; 
返回 ， 若 成 功 则 为 非 室 指 针 ， 若 出 错 则 为 NULL 
本 函数 返回 的 非 空 指针 指向 如 下 的 servent 结 构 。 


struct servent { 





char *s name; /* official service name */ 
char **s_aliases; /* alias list */ 
int s, port; /* port number, network byte order */ 
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char *s proto; /* protocol to use */ 
) 


服务 名 参数 servname 必 须 指 定 。 如 果 同 时 指定 了 协议 ( 即 protoname 参 数 为 非 空 指针 )， 那 
么 指定 服务 必须 有 匹配 的 协议 。 有 些 因特网 服务 既 用 TCP 也 用 UDP 提供 〈 例 如 DNS 以 及 图 2-18 
中 的 所 有 服务 ), 其 他 因特网 服务 则 仅仅 支持 单个 协议 (例如 FTP 要 求 使 用 TCP)。 如 果 protoname 
未 指定 而 servname 指 定 服务 支持 多 个 协议 ， 那么 返回 哪个 端口 号 取决 于 实现 。 通 常情 况 下 这 种 
选择 无 关 紧 要 ， 因 为 支持 多 个 协议 的 服务 往往 使 用 相同 的 TCP 端 口号 和 UDP 端 口号 ， 不 过 这 点 
并 没有 保证 。 

servent 结 构 中 我 们 关心 的 主要 字段 是 端口 号 。 既 然 端口 号 是 以 网 络 字 节 序 返回 的 ， 把 它 
存放 到 套 接 字 地 址 结构 时 绝对 不 能 调用 htons。 

本 函数 的 典型 调用 如 下 : 


struct servent *sptr; 


sptr = getservbyname("domain", "udp"); /* DNS using UDP */ 
sptr - getservbyname("ftp", "tcp"); /* FTP using TCP */ 
sptr - getservbyname("ftp", NULL); /* FTP using TCP */ 
sptr = getservbyname("ftp", "udp"); /* this call will fail */ 


既然 FTP 仅 仅 支 持 TCP， 第 二 个 调用 和 第 三 个 调用 等 效 ， 第 四 个 调用 则 会 失败 。 以 下 是 
/etc/services 文 件 中 典型 的 文本 行 : 


freebsd $ grep -e ^ftp -e ^domain /etc/services 


ftp-data 20/tcp #File Transfer [Default Data] 

ftp 21/tcp #File Transfer [Control] 

domain 53/tcp #Domain Name Server 

domain 53/udp #Domain Name Server 

ftp-agent 574/tcp *PTP Software Agent System 

ftp-agent 574/udp #FTP Software Agent System 

ftps-data 989/tcp # ftp protocol, data, over TLS/SSL 
ftps 990/tcp # ftp protocol, control, over TLS/SSL 


下 一 个 函数 getservbyport 用 于 根据 给 定 端口 号 和 可 选 协议 查找 相应 服务 。 


*include «netdb.h» 


Struct servent *getservbyport(int port, const char *protoname); 


返回 ， 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 
Port 参 数 的 值 必须 为 网 络 字 节 序 。 本 函数 的 典型 调用 如 下 : 


struct servent *sptr; 





sptr = getservbyport (htons (53) , "udp") ; /* DNS using UDP */ 
sptr = getservbyport (htons(21), "tcp"); /* FTP using TCP */ 
sptr = getservbyport (htons(21), NULL); /* FTP using TCP */ 
sptr = getservbyport (htons(21), "udp"); /* this call will fail */ 


因为 UDP 上 没有 服务 使 用 端口 21， 所 以 最 后 一 个 调用 将 失败 。 
必须 清楚 的 是 ， 有 些 端口 号 在 TCP 上 用 于 一 种 服务 ， 在 UDP 上 却 用 于 完全 不 同 的 另 一 种 服 
务 。 例如 : 


freebsd $ grep 514 /etc/services 
shell 514/tcp cma #like exec, but automatic 
syslog 514/udp 


表明 端口 5S14 在 TCP 上 由 rsh 命 令 使 用 ， 在 UDP 上 却 由 svslog 守 护 进程 使 用 。$12 一 514 范 围 内 的 
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端口 都 有 这 个 特性 。 
例子 : 使 用 gethostbyname 和 getservbyname 


我 们 现在 可 以 把 图 1-5 中 的 TCP 时 间 获 取 客 户 程 序 改 为 使 用 gethostbyname 和 get servby- 
name， 并 改 用 2 个 命令 行 参数 .主机 名 和 服务 名 。 图 11-4 是 改动 后 的 程序 。 它 还 展示 了 一 个 期 望 的 
行为 ， 尝 试 连接 到 多 宿 服务 器 主机 的 每 个 下 地 址 ， 直 到 有 一 个 连接 成 功 或 所 有 地 址 尝试 完毕 为 止 。 








names/daytimetcpclil.c 


1 #include "unp.h"* 


2 int 

3 main(int argc, char **argv) 

4 í 

5 int sockfd, n; 

6 char recvline[MAXLINE + 1]; 

7 struct sockaddr in servaddr; 

8 struct in addr **pptr; 

9 struct in_addr *inetaddrp[2]; 

10 struct in_addr inetaddr; 

11 struct hostent *hp; 

12 struct servent *sp; 

13 if (argc !- 3) 

14 err quit ("usage: daytimetcpclil «hostname» «service»"); 
15 if ( (hp = gethostbyname(argv[1])) == NULL) ( 

16 if (inet aton(argv[1], &inetaddr) -- 0) ( 

17 err_quit ("hostname error for $5: $s", argv(1], 
18 hstrerror(h errno)); 

19 ) eise ( 

20 inetaddrp[0] = &inetaddr; 

21 inetaddrp[1] = NULL; 

22 pptr - inetaddrp; 

23 

24 ) else ( 

25 pptr = (struct in_addr **) hp->h_addr_list; 

26 ) 

27 if ( (sp = getservbyname(argv[2], "tcp")) == NULL) 

28 err quit("getservbyname error for $s", argv[21); 
29 for ( ; *pptr != NULL; pptr++) ( 

30 sockfd - Socket(AF INET, SOCK STREAM, 0); 

31 bzero(&servaddr, sizeof (servaddr)); 

32 servaddr.sin family - AF, INET; 

33 servaddr.sin port = sp-»S$ port; 

34 memcpy (&servaddr.sin_addr, *pptr, sizeof (struct in addr)); 
35 printf("trying %s\n", Sock ntop((SA *) &servaddr, si2zeof(servaddr))); 
36 if (connect(sockfd, (SA *) &servaddr, sizeof(servaddr)) == 9) 
37 break; /* success */ 

38 err ret("connect error"); 

39 close(sockfd); 

40 ) 

41 if (*pptr -- NULL) 

42 err_quit ("unable to connect"); 

43 while ( (n = Read(sockfd, recvline, MAXLINE)) > 0) { 
44 recvline[n] = 0; /* null terminate */ 

45 Fputs(recvline, stdout); 

46 ) 

47 exit(0); 

4B ) 
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图 11-4 ”使 用 gethostbyname 和 getservbyname 的 时 间 获 取 客 户 程 序 
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调用 gethostbyname 和 getservbyname 

13~28 ”第 一 个 命令 行 参数 是 主机 名 ， 我 们 把 它 作 为 参数 传递 给 gethostbyname， 第 二 个 命令 
行 参数 是 服务 名 ， 我 们 把 它 作 为 参数 传递 给 getservbyname。 假 设 我 们 的 代码 使 用 
TCP， 我 们 把 它 作 为 get servpyname 的 第 二 个 参数 。 如 果 gethostbyname 名 字 查 找 失 
Wc, 我 们 就 尝试 使 用 inet_aton 函 数 (3.6 节 ), 确定 其 参数 是 否 已 是 ASCII 格 式 的 地 址 ， 
若是 则 构造 一 个 由 相应 的 地 址 构成 的 单元 素 列 表 。 

尝试 每 个 服务 器 主机 地 址 

29-35 ”我 们 把 对 socket 和 connect 的 调用 放 在 一 个 循环 中 ， 该 循环 为 服务 器 主机 的 每 个 地 址 
执行 一 次 ， 直 到 connect 成 功 或 IP 地 址 列表 试 完 为 止 。 调 用 socket 以后， 我 们 以 服务 
器 主机 的 下地 址 和 端口 装填 网 际 网 套 接 字 地 址 结构 。 尽 管 我 们 可 以 把 对 bzero 的 调用 
和 它 后 面 的 两 个 赋值 语句 置 于 循环 体 之 外 以 提高 执行 效率 ， 不 过 如 图 所 示 的 代码 要 易 
读 些 。 与 服务 器 建立 连接 几乎 不 会 成 为 网 络 客户 的 性 能 瓶颈 。 

调用 connect 

36-39 ”接着 调用 connect。 如 果 调 用 成 功 ， 那 就 使 用 break 语 句 终 止 循环 ， 否则 输出 一 个 出 错 
消息 并 关闭 套 接 字 。 回 顾 一 下 ， 我 们 知道 connect 调 用 失败 的 描述 符 必 须 关 闭 ， 不 能 
再 用 。 

检查 是 否 失 败 

41-42 “如果 循环 终止 的 原因 是 没有 一 个 connect 调 用 成 功 ， 那 就 终止 程序 运行 。 

读 取 服务 器 的 应 答 

43-47 ” 否则， 我们 读 取 服 务 器 的 应 答 ， 并 在 服务 器 关闭 连接 后 终止 程序 运行 。 

如 果 我 们 针对 正在 运行 标准 daytime 服 务 器 的 某 个 主机 运行 本 客户 程序 , 我 们 就 会 得 到 预期 
的 输出 : 
freebsd $ daytimetcpclil aix daytime 


trying 192.168.42.2:13 

Sun Jul 27 22:44:19 2003 

更 有 意思 的 是 针对 一 个 不 在 运行 标准 daytime 服 务 器 的 多 宿 系统 运行 本 程序 : 
freebsd $ daytimetcpclil gateway.tuc.noao.edu daytime 
trying 140.252.108.1:13 

connect error: Operation timed out 

trying 140.252.1.4:13 

connect error: Operation timed out 

trying 140.252.104.1:13 

connect error: Connection refused 

unable to connect 
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gethostbyname 和 gethostbyaddr 这 两 个 函数 仅仅 支持 IPv4。 正 如 11.20 节 将 介绍 的 那样 ， 
解析 IPv6 地 址 的 API 经 历 了 若干 次 反复 ; 最 终结 果 是 getadarinfo 函 数 。getaddrinfo 函 数 能 够 
处 理 名 字 到 地 址 以 及 服务 到 端口 这 两 种 转换 ， 返 回 的 是 一 个 sockaddr 结 构 而 不 是 一 个 地 址 列 
表 。 这 些 sockadar 结 构 随后 可 由 套 接 字 函数 直接 使 用 。 如 此 一 来 ，getaddrinfo 函 数 把 协议 相 
关 性 完全 隐藏 在 这 个 库 函 数 内 部 。 应 用 程序 只 需 处 理由 getadarinfo 填 写 的 套 接 字 地 址 结构 。 
该 函数 在 POSIX 规 范 中 定义 。 
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POSIX 对 这 个 函数 的 定义 来 源 于 一 个 由 Keith Sklower 早 先 提出 的 名 为 getconninfo 的 函 
数 。 这 个 函数 是 他 与 Eric Allman, Walliam Durst. Michael Karels, Steven Wise 共 同 讨 论 的 结 
果 ， 起 源 于 Eric Allman 编 写 的 一 个 早期 实现 。 指 定 主机 名 和 服务 名 足以 独立 于 协议 细节 连接 
到 一 个 具体 服务 ， 这 个 评述 是 由 Marshall Rose 在 X/Open 的 一 个 提议 中 作出 的 .。 


#include <netdb.h> 


int getaddrinfo(const char *hostname, const char *service, 


const struct addrinfo *hints, struct addrinfo **result); 


返回 : AFAR AO, FRUA CHLBETI-7) 
本 函数 通过 result 指 针 参 数 返回 一 个 指向 adarinfo 结 构 链表 的 指针 ， 而 addrinfo 结 构 定义 





在 头 文件 <netdb.h> 中 。 
struct addrinfo { 
int ai_flags; /* AI_PASSIVE, AI CANONNAME */ 
int ai family; /* AF xxx */ 
int ai, socktype; /* SOCK xxx */ 
int ai protocol; /* 0 or IPPROTO xxx for IPv4 and IPv6 */ 
Socklen t ai, addrlen; /* length of ai, addr */ 
char *ai canonname; /* ptr to canonical name for host */ 
struct sockaddr  *ai addr; /* ptr to socket address structure */ 
struct addrinfo  *ai next; /* ptr to next structure in linked list */ 


); 
其 中 hostname 参 数 是 一 个 主机 名 或 地 址 串 (IPv4 的 点 分 十 进 制 数 串 或 I[Pv6 的 十 六 进 制 数 串 )。 
service 参 数 是 一 个 服务 名 或 十 进 制 端 口号 数 串 。( 习 题 11.4 也 要 求 允许 使 用 地 址 串 作为 主机 名 ， 
使 用 端口 号 数 串 作 为 服务 名 。》) 
hints 参 数 可 以 是 一 个 空 指 针 ， 也 可 以 是 一 个 指向 某 个 addrinfo 结 构 的 指针 ,调用 者 在 这 个 
结构 中 填 入 关于 期 望 返回 的 信息 类 型 的 暗示 。 举例 来 说 , 如 果 指 定 的 服务 既 支 持 TCP 也 支持 UDP 
(例如 指 代 某 个 DNS 服 务 器 的 domain 服 务 )， 那 么 调用 者 可 以 把 hints 结 构 中 的 ai_socktype 成 员 
315) ”设置 为 SOCK_DGRAM， 使 得 返回 的 仅仅 是 适用 于 数据 报 套 接 字 的 信息 。 
hints 结 构 中 调用 者 可 以 设置 的 成 员 有 : 
e ai_flags( 零 个 或 多 个 或 在 一 起 的 AIT_xxx 值 ); 
e ai_family〔( 某 个 AF_xxx 值 ); 
e ai_socktype〔 某 个 Sock_xxx 值 ); 
* ai protocol. 
其 中 ai_flags 成 员 可 用 的 标志 值 及 其 含义 如 下 。 
AI PASSIVE 套 接 字 将 用 于 被 动 打 开 。 
AI CANONNAME 告知 getadarinfo 函 数 返回 主机 的 规范 名 字 。 
AI NUMERICHOST ”防止 任何 类 型 的 名 字 到 地 址 映射 ，hostmame 参 数 必须 是 一 个 地 址 串 。 
AI NUMERICSERV ”防止 任何 类 型 的 名 字 到 服务 映射 ,service 参 数 必须 是 一 个 十 进 制 端口 号 
Sup. 
AI V4MAPPED 如 果 同 时 指定 ai_family 成 员 的 值 为 AF_INET6， 那 么 如 果 没 有 可 用 的 
AAAA 记 录 ， 就 返回 与 A 记录 对 应 的 IPv4 映 射 的 IPv6 地 址 。 
AI_ALL 如 果 同 时 指定 AI_V4MAPPED 标 志 ， 那 么 除了 返回 与 AAAA 记 录 对 应 的 
IPv6 地 址 外 ， 还 返回 与 A 记录 对 应 的 IPv4 映 射 的 IPv6 地 址 。 
AI_ADDRCONFIG ”按照 所 在 主机 的 配置 选择 返回 地 址 类 型 ， 也 就 是 只 查找 与 所 在 主机 器 
馈 接口 以 外 的 网 络 接 口 配 置 的 IP 地 址 版 本 一 致 的 地 址 。 
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如 果 hints 参 数 是 一 个 空 指针 ， 本 函数 就 假设 ai_flag、ai_socktype 和 ai_protocol 的 值 
均 为 0，ai_family 的 值 为 AF_UNSPEC。 

如 果 本 函数 返回 成 功 (0)， 那 么 由 result 参 数 指向 的 变量 已 被 填 入 一 个 指针 ， 它 指向 的 是 由 
其 中 的 ai_next 成 员 串 接 起 来 的 adarinfo 结 构 链 表 。 可 导致 返回 多 个 aadrinfo 结 构 的 情形 有 以 
FB. 

(1) 如 果 与 hostname 参 数 关联 的 地 址 有 多 个 ， 那 么 适用 于 所 请 求 地 址 族 (可 通过 hints 结 构 的 
ai_family 成 员 设 置 ) 的 每 个 地 址 都 返回 一 个 对 应 的 结构 。 

(2) 如 果 service 参 数 指定 的 服务 支持 多 个 套 接 字 类 型 , 那么 每 个 套 接 字 类 型 都 可 能 返回 一 个 
对 应 的 结构 ， 具 体 取决 于 hints 结 构 的 ai_socktype 成 员 。( 注 意 ，getaddrinfo 的 多 数 实现 认为 
只 能 按照 由 ai_socktype 成 员 请 求 的 套 接 字 类 型 端口 号 数 串 到 端口 的 转换 ， 如 果 没 有 指定 这 个 
成 员 ， 那 就 返回 一 个 错误 。) , 

举例 来 说 ,如 果 在 没有 提供 任何 暗示 信息 的 前 提 下 , 请 求 查找 有 2 个 IP 地 址 的 某 个 主机 上 的 
domain 服 务 ， 那 将 返回 4 个 addrinfo 结 构 ， 分 别 是 : 

e 第 一 个 IP 地 址 组 合 socK_sTREAM 套 接 字 类 型 ; 

e 第 一 个 IP 地 址 组 合 socK_DGRAM 套 接 字 类 型 ; 

e 第 二 个 下地 址 组 合 socK_sTREAM 套 接 字 类 型 ; 

e 第 二 个 IP 地 址 组 合 socK_DGRAM 套 接 字 类 型 。 

图 11-5 展 示 了 本 例子 。 当 有 多 个 aGdrinfo 结 构 返 回 时 ， 这 些 结构 的 先后 顺序 没有 保证 ， 也 
就 是 说 ， 我 们 并 不 能 假定 TCP 服 务 总 是 先 于 UDP 服务 返回 。 


尽管 没有 保证 ， 本 函数 的 实现 却 应 该 按照 DNS 返回 的 顺序 返回 各 个 IP 地 址 。 有 些 解析 器 
允许 系统 管理 员 在 /etc/resolv.,conf 文 件 中 指定 地 址 的 排序 顺序 .IPv6 可 指定 地 址 选择 规 
则 ( RFC 3483 [ Draves 2003 ])， 可 能 影响 由 getaddrinfo 返 回 地 址 的 顺序 。 


在 addrinfo 结 构 中 返回 的 信息 可 现成 用 于 socket 调 用 , 随后 现成 用 于 适合 客户 的 connect 
或 sendto 调 用 ， 或 者 是 适合 服务 器 的 binad 调 用 。socket 函 数 的 参数 就 是 addrinfo 结 构 中 的 
ai_family、ai_socktype 和 ai_addr 成 员 。connect 或 bind 函 数 的 第 二 个 和 第 三 个 参数 就 是 该 
结构 中 的 ai_adar (一 个 指向 适当 类 型 套 接 字 地 址 结构 的 指针 , 地 址 结构 的 内 容 由 getadqdrinfo 
函数 填写 ) 和 ai_adadarlen〈 这 个 套 接 字 地 址 结构 的 大 小 ) 成 员 。 

如 果 在 hinis 结 构 中 设置 了 AI_CANONNAME 标 志 ， 那 么 本 函数 返回 的 第 一 个 addrinfo 结 构 的 
ai_canonname 成 员 指向 所 查找 主机 的 规范 名 字 。 按 照 DNS 的 说 法 ， 规 范 名 字 通 常 是 FQDN。 诸 
如 telnet 之 类 程序 往往 使 用 这 个 标志 以 显示 所 连接 到 主机 的 规范 名 字 ， 这 样 即使 用 户 给 定 的 是 
一 个 简单 名 字 或 别名 ， 他 们 也 能 搞 清 真正 查找 的 名 字 。 

图 11-5 给 出 了 执行 下 列 程序 片段 返回 的 信息 。 

struct addrinfo hints, *res; 


bzero(&hints, sizeof(hints)); 
hints.ai flags = AI, CANONNAME; 
hints.ai family = AF INET; 


getaddrinfo("freebsd4", "domain", &hints, &res); 

图 中 除 res 变 量 外 的 所 有 内 容 都 是 由 getaaqrinfo 函 数 动态 分 配 的 内 存 空间 〈 璧 如 来 自 
malloc 调 用 )。 我 们 假设 主机 freebsq4 的 规范 名 字 是 ftreebsd4 .unpbook.com， 并 且 它 在 DNS 
中 有 2 个 IPv4 地 址 。 


w 
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ai family 
ai socktype 
ai protocol 


ai addrlen 


ai addr 
ai next 


res: 















freebsd4 .unpbook.com\0 


sockaddr in() 











16, AF_INET, 53 
135.197.17.100 









ai_family 
ai_socktype 
ai_protocol 
ai addrlen 
ai canonname 







IPPROTO UDP 
16 
NULL sockaddr in() 



















16, AF_INET, 53 
172.24.37.94 






addrinfo() 
ai family 

ai socktype 
ai protocol 
ai addrlen 
ai canonname 














NULL sockaddr in() 


| | |  ]1&4Ag& INET 53 
ESSE 
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addrinfo() 
ai family 

ai socktype 
ai protocol 


ai addrlen 


ai canonname 








NULL sockaddr in() 





16,AF INET, 53 
172.24.37.94 


PTT < 





人 


图 11-5 _ getaddrinfo 返 回信 息 的 实例 


端口 33 用 于 domain 服务 。 这 个 端口 号 在 套 接 字 地 址 结构 中 按照 网 络 字 节 序 存 放 。 返 回 的 
ai _protocol 值 或 为 IPPROTO _TCP， 或 为 IPPROTO_UDP。 要 是 ai_family 和 ai_socktype 组 
合 能 够 完全 指定 TCP 或 UDP 协 议 ， 那 么 返回 的 ai_protocol 值 为 0 也 可 以 接受 。 也 就 是 说 ， 如 果 
系统 没有 实现 除 TCP 外 的 其 他 socK_sTREAM 协 议 〈 例 如 SCTP)， 套 接 字 类 型 值 为 SocK_STREAM 
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的 那 两 个 adarinfo 结 构 协 议 值 可 为 0， 同 样 地 ， 如 果 系 统 没有 实现 除 UDP 外 的 其 他 sock_DGRAM 
协议 《编写 本 书 时 还 没有 标准 化 的 协议 ， 不 过 IETF 正 在 开发 两 个 这 类 协议 )， 套 接 字 类 型 值 为 
SOCK_DGRAM 的 那 两 个 aadqrinfo 结 构 协 议 值 可 为 0。 最 安全 的 做 法 是 让 getadqdrinfo 总 是 返回 明 
确 的 协议 值 。 

图 11-6 汇 总 了 根据 指定 的 服务 名 〈 可 以 是 一 个 十 进 制 端口 号 数 串 ) 和 ai_socktype 上 暗示 信 
息 为 每 个 通过 主机 名 查找 获得 的 IP 地 址 返回 aaarinfo 结 构 的 数目 。 


服务 以 名 字 标 识 ， 它 的 提供 者 为 : 服务 以 端 


ai x^ ats 


TCP 和 | TCP. 口号 标识 
Dee [sm [en E Tim 


0 

SOCK_STREAM 
SOCK_DGRAM 
SOCK_SEQPACKET 





图 11-6 “为 每 个 IP 地 址 返回 的 aaarinfo 结 构 的 数目 


在 不 考虑 SCTP 的 前 担 下 ， 只 有 在 未 提供 ai_socktype 暗 示 信 息 时 才 可 能 为 每 个 卫 地 址 返回 
多 个 adarinfo 结 构 ， 此 时 或 者 服务 以 名 字 标 识 并 且 同 时 支持 TCP 和 UDP (在 /etc/services 文 
件 中 指明 )， 或 者 服务 以 端口 号 标识 。 

如 果 枚 举 getadaqrinfo 所 有 64 种 可 能 的 输入 〈 因 为 它 共 有 6 个 二 值 输入 变量 )， 那 么 许多 是 
无 效 的 ， 有 些 则 没有 多 大 意义 。 为 此 我 们 只 查看 一 些 常见 的 输入 。 

e 指定 hostname 和 service。 这 是 TCP 或 UDP 客 户 进 程 调用 getaddrinfo 的 常规 输入 。 该 调用 
返回 后 ，TCP 客 户 在 一 个 循环 中 针对 每 个 返回 的 他 地址， 逐一 调用 socket 和 connect， 
直到 有 一 个 连接 成 功 ， 或 者 所 有 地 址 尝试 完毕 为 止 。 我 们 将 在 图 11-10 中 随 自 行 开发 的 
tcp_connect 函 数 给 出 这 样 的 一 个 例子 。 

对 于 UDP 客户 , 由 getadqdarinfo 填 入 的 套 接 字 地 址 结构 用 于 调用 senato 或 connect。 
如 果 客 户 能 够 判定 第 一 个 地 址 看 来 不 工作 (其 手段 不 外 乎 或 者 在 已 连接 的 UDP 套 接 字 上 收 
到 出 错 消息 ， 或 者 在 未 连接 的 套 接 字 上 经 历 消息 接收 超时 )， 那 么 可 以 尝试 其 余 的 地 址 。 

如 果 客 户 清楚 自己 只 处 理 一 种 类 型 的 套 接 字 (例如 Telnet 和 FTP 客 户 只 处 理 TCP， 
TFTP 客 户 只 处 理 UDP)， 那 么 应 该 把 hints 结 构 的 ai_socktype 成 员 设 置 成 sOCK_STREAM 
BÉSOCK DGRAM. 
典型 的 服务 器 进程 只 指定 service 而 不 指定 hostname， 同 时 在 hints 结 构 中 指定 AI_PASSIVE 
标志 。 返 回 的 套 接 字 地 址 结构 中 应 含有 一 个 值 为 INADDR_ANY (对 于 IPv4) 或 
IN6ADDR_ANY_INIT( 对 于 IPv6) 的 人 P 地 址 。 TCP 服 务 器 随后 调用 socket、binG 和 1isten。 
如 果 服 务 器 想 要 malloc 另 一 个 套 接 字 地 址 结构 以 从 accept 获 取 客 户 的 地 址 ,那么 返回 的 
ai_addrlen 值 给 出 了 这 个 套 接 字 地 址 结构 的 大 小 。 

UDP 服务 器 将 调用 socket、bind 和 recvfrom。 如 果 服 务 器 想 要 mal loc 另 一 个 套 接 字 地 
址 结构 以 从 recvfrom 获 取 客 户 的 地 址 ， 那 么 返回 的 ai_adadrlen 值 给 出 了 这 个 套 接 字 地 
址 结构 的 大 小 。 

与 典型 的 客户 一 样 ， 如 果 服 务 器 清楚 自己 只 处 理 一 种 类 型 的 套 接 字 ， 那 么 应 该 把 hints 结 
构 的 ai_socktype 成 员 设 置 成 SOCK_STREAM 或 SOCK_DGRAM。 这 样 可 以 避免 返回 多 个 结 
构 ， 其 中 可 能 出 现 错误 的 ai_socktype 值 。 
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e 到 目前 为 止 ， 我 们 展示 的 TCP 服 务 器 仅仅 创建 一 个 监听 套 接 字 ，UDP 服 务 器 也 仅仅 创建 
一 个 数据 报 套 接 字 。 这 也 是 我 们 讨论 上 一 点 隐 含 的 一 个 假设 。 服 务 器 程序 的 另 一 种 设计 
方法 是 使 用 select 或 pol1 函 数 让 服务 器 进程 处 理 多 个 套 接 字 。 这 种 情形 下 ， 服 务 器 将 
遍历 由 getadarinfo 返 回 的 整个 addrinfo 结 构 链表 ， 并 为 每 个 结构 创建 一 个 套 接 字 ， 
再 使 用 select 或 pol1。 


这 个 技术 的 问题 在 于 ，getaddrinfo 返 回 多 个 结构 的 原因 之 一 是 该 服务 可 同时 由 IPv4 和 
IPv6 处 理 (图 11-8 )。 然 而 正如 将 在 12.2 节 看 到 的 那样 ， 这 两 个 协议 并 非 完 全 独立 。 也 就 是 说 ， 
如 果 我 们 为 菜 个 给 定 端口 创建 了 一 个 IPv6 监 听 套 接 字 ， 那 么 没有 必要 为 同一 个 端口 再 创建 一 
个 IPv4 套 接 字 ， 因 为 来 自 IPv4 客 户 的 连接 将 由 协议 栈 和 IPv6 监 听 套 接 字 自动 处 理 ， 而 不 论 是 
否 设置 了 IPV6_V6ONLY 套 接 字 选项 。 


尽管 getaaqrinfo 函 数 确 实 比 gethostbyname 和 getservbyname 这 两 个 函数 “好 ”( 它 方便 
我 们 编写 协议 无 关 的 程序 代码 ， 单 个 函数 能 够 同时 处 理 主 机 名 和 服务 ， 所 有 返回 信息 都 是 动态 
而 不 是 静态 分 配 的 )， 不 过 它 仍 然 没 有 像 期 待 的 那样 好 用 。 问 题 在 于 我 们 必须 先 分 配 一 个 hints 
结构 ， 把 它 清 零 后 填写 需要 的 字段 ， 再 调用 getaddrinfo， 然 后 遍历 一 个 链表 逐一 尝试 每 个 返 
回 地 址 。 在 以 后 几 节 我 们 将 为 典型 的 TCP 或 UDP 客 户 和 服务 器 提供 一 些 较 简单 的 接口 ， 并 用 在 
本 书 以 后 的 程序 编写 中 。 

getaGdrinfo 解 决 了 把 主机 名 和 服务 名 转换 成 套 接 字 地 址 结构 的 问题 。 我 们 将 在 11.17 节 讲 
解 它 的 反 义 函 数 getnameinfo， 它 把 套 接 字 地 址 结构 转换 成 主机 名 和 服务 名 。 


11.7 gai strerror 函数 i 

















图 11-7 给 出 了 可 由 getaddarinfo 返 回 的 非 0 错 误 值 的 名 字 和 含义 。gai_strerrozr 以 这 些 值 
[320] 为 它 的 唯一 参数 ， 返 回 一 个 指向 对 应 的 出 错 信息 串 的 指针 。 


#include «netdb.h» 


const char *gai strerror(int error); 


返回 ， 指 向 错误 描述 消息 字符 串 的 指针 









说 
名 字 和 解析 中 临时 失败 
ai_flags 的 值 无 效 

















EAI, AGAIN 
EAI BADFLAGS 


EAI FAIL 名 字 解 析 中 不 可 恢复 地 失败 

EAI FAMILY 不 支持 ai_family 

EAI_MEMORY 内 存 分 配 失 败 

EAI NONAME hostname 或 service 未 提供 ， 或 者 不 可 知 


EAL_OVERFLOW 用 户 参 数 缓冲 区 溢出 ( 仅 限 getnameinfo() 函 数 ) 
不 支持 ai_socktype 类 型 的 service 
不 支持 ai_socktype 


在 errnoc 变 量 中 有 系统 错误 返回 
图 11-7 getadarinfo 返 回 的 非 0 错误 常 值 


EAI, SERVICE 











EAI SOCKTYPE 








EAI SYSTEM 
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11.8 freeaddrinfo 函数 





由 getaddrinfo 返 回 的 所 有 存储 空间 都 是 动态 获取 的 (局 如 来 自 malloc 调 用 )， 包 括 
addqrinfo 结 构 、ai_adadar 结 构 和 ai_canonname 字 符 串 。 这 些 存 储 空间 通过 调用 freeaddqrinfo 
返还 给 系统 。 


finclude <netdb.h> 





void freeaddrinfo(struct addrinfo *ai); 


qi 参数 应 指向 由 getaddrinfo 返 回 的 第 一 个 aGdrinfo 结 构 。 这 个 链表 中 的 所 有 结构 以 及 由 
它们 指向 的 任何 动态 存储 空间 〈 壁 如 套 接 字 地 址 结构 和 规范 主机 名 〉 都 被 释放 掉 。 

假设 我 们 调用 getadadarinfto， 遍 历 返回 的 aaarinfo 结 构 链 表 后 找到 所 需 的 结构 。 如 果 我 们 

为 保存 其 信息 而 仅仅 复制 这 个 addrinfo 结 构 ， 然 后 调用 freeaddrinfo， 那 就 引入 了 一 个 潜藏 

的 错误 。 原 因 在 于 这 个 addrinfo 结 构 本 身 指向 动态 分 配 的 内 存 空 间 (用 于 存放 套 接 字 地 址 结构 

和 可 能 有 的 规范 主机 名 )， 因 此 由 我 们 保存 的 结构 指向 的 内 存 空间 已 在 调用 freeaddrinfo 时 返 

还 给 系统 ， 稍 后 可 能 用 于 其 他 目的 。 
只 复制 这 个 addrinfo 结 构 而 不 复制 由 它 转 而 指向 的 其 他 结构 称 为 浅 复 制 ( shallow 
copy )。 既 复制 这 个 adGrinfo 结 构 又 复制 由 它 指 向 的 所 有 其 他 结构 称 为 深 复 制 (deep copy ). 
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POSIX 规 范 定义 了 getaGdrinfo 函 数 以 及 该 函数 为 IPv4 或 IPv6 返 回 的 信息 。 在 以 图 11-8 汇 总 
这 些 返 回 值 之 前 ， 我 们 注意 以 下 几 点 。 
e getadGrinfo 在 处 理 两 个 不 同 的 输入 : 一 个 是 套 接 字 地 址 结构 类 型 ， 调 用 者 期 待 返回 的 
地 址 结构 符合 这 个 类 型 ， 男 一 个 是 资源 记录 类 型 ， 在 DNS 或 其 他 数据 库 中 执行 的 查找 符 
合 这 个 类 型 。 
e. 由 调用 者 在 hints 结 构 中 提供 的 地 址 族 指定 调用 者 期 待 返回 的 套 接 字 地 址 结构 的 类 型 。 如 
果 调 用 者 指定 AF_INET，getaddrinfo 函 数 就 不 能 返回 任何 sockaGdr_in6 结 构 ; 如果 调 
用 者 指定 AF_INET6， getadqrinfo 国 数 就 不 能 返回 任何 sockaddr_in 结 构 。 
e POSIX 声 称 如 果 调 用 者 指定 AF_UNSPEC， 那 么 getaddrinfo 函 数 返 回 的 是 适用 于 指定 主 
机 名 和 服务 名 且 适 合 任意 协议 族 的 地 址 。 这 就 意味 着 如 果 某 个 主机 既 有 AAAA 记 录 又 有 
A 记录 ， 那 么 AAAA 记 录 将 作为 sockaddr_in6 结 构 返 回 ，A 记 录 将 作为 sockadar_in 结 
构 返 回 。 在 sockaGar_in6 结 构 中 作为 IPv4 映 射 的 IPv6 地 址 返回 A 记录 没有 任何 意义 ， 
为 这 么 做 没有 提供 任何 额外 信息 : 这 些 地 址 已 在 sockaddr_in 结 构 中 返回 过 了 。 
POSIX 的 这 个 声明 也 意味 着 如 果 设 置 了 AI_PASSIVE 标 志 但 是 没有 指定 主机 名 ,那么 IPv6 
通 配 地 址 (IN6ADDR_ANY_INIT 或 0::0) 应 该 作为 sockaddr_in6 结 构 返 回 ， 同 样 IPv4 通 
配 地 址 〈INADDR_ANY 或 0.0.0.0) 应 该 作为 sockadar_in 结 构 返 回 。 首 先 返回 IPv6 通 配 地 
址 也 是 有 意义 的 ， 因 为 我 们 将 在 12.2 节 看 到 双 栈 主机 上 的 IPv6 服 务 器 能 够 同时 处 理 IPv6 
客户 和 IPv4 客 户 。 
e 在 hints 结 构 的 ai_family 成 员 中 指定 的 地 址 族 以 及 在 ai_flags 成 员 中 指定 的 
AI_V4MAPPED 和 AI_ALL 等 标志 决定 了 在 DNS 中 查找 的 资源 记录 类 型 (A 和 /或 AAAA)， 
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也 决定 了 返回 地 址 的 类 型 〈(IPv4、IPv6 和 /或 IPv4 映 射 的 IPv6)。 图 11-8 对 此 作 了 汇总 。 

e 主机 名 参数 还 可 以 是 IPv6 的 十 六 进 制 数 串 或 ITPv4 的 点 分 十 进 制 数 串 。 这 个 数 串 的 有 效 性 
取决 于 由 调用 者 指定 的 地 址 族 。 如 果 指 定 aF_INET， 那 就 不 能 接受 IPv6 的 十 六 进 制 数 串 ; 
如 果 指 定 AF_INET6， 那 就 不 能 接受 IPv4 的 点 分 十 进 制 数 串 。 然 而 如 果 指 定 的 是 
AF_UNSPEC， 屠 么 这 两 种 数 串 都 可 以 接受 ， 返 回 的 是 相应 类 型 的 套 接 字 地 址 结构 。 


有 人 可 能 会 争论 说 ， 如 果 指 定 了 AF_INET6， 那 么 点 分 十 进 制 数 囊 应 该 作为 [Pv4 映 射 的 
IPv6 地 址 在 sockaddr_in6 结 构 中 返回 。 然 而 得 到 同样 结果 另 有 简单 的 方法 ， 就 是 在 点 分 十 
进 制 数 串 前 加 上 0: :Efff:。 


图 11-8 汇 总 了 getadarinfo 如 何 处 理 IPv4 和 IPv6 地 址 。“ 结 果 ” 一 栏 是 在 给 定 前 三 栏 的 变量 
后 ， 该 函数 返回 给 调用 者 的 结果 。“ 行 为 ”一 栏 则 说 明 该 函数 如 何 获 取 这 些 结 


调用 者 指定 | 调用 者 指定 | ”主机 名 字符 M X 
的 主机 名 | 的 地 址 族 PRA | i i 


以 sockaaar_in6{} 返 回 所 有 AAAA AAAA 记 录 搜 索 加 上 A 
主机 名 记录 ， 以 sockadGr_in{} 返 回 所 有 A | 记录 搜索 


记录 
USER 
RA FEM 


以 sockaGdr_in61} 返 回 所 有 AAAA AAAA 记 录 搜 索 
记录 


在 ai_flags 含 AI_V4MAPPED 前 提 AAAA 记 录 搜 索 ， 若 无 


Ñ 
行 A 













AF UNSPEC 




































非 空 主机 名 
字符 串 ; 
主动 或 被 动 






主机 名 
AF_INET6 







dar_in6{} 返 回 所 有 AAAA 记 录 ; 15 
AAAA 记 录 搜 索 加 上 A 
记录 搜索 
IPv6 地 址 返回 所 有 A 记录 


则 以 sockaddr_in6{} 作 为 IPv4 映 射 
的 IPv6 地 址 返回 所 有 A 记录 
TAE 
点 分 十 进 制 数 串 ”| ”作为 主机 名 查找 | O O 
个 





AI_ALL 前 提 下 ; 以 sockadar_in6{} 
十 六 进 制 数 所 作为 主机 名 查找 | 


在 ai flags 含 AI VAMAPPED 和 
返回 所 有 AAAA 记 录 ， 并 且 以 
主机 以 sockadqr_in{} 返 回 所 有 A 记录 A 记录 搜索 
AF_INET 
Afr HERI 





F: 若 存 在 AAAA 记 录 则 以 socka- | 结果 则 A 记 录 搜 索 
sockaddr in6() 作为 IPv4 映 射 的 
名 
隐 含 0::0 个 sockaaar_in6{) 和 一 个 inet. pton(AF INET6) 
隐 舍 0.0.0.0 sockaddr_in{)} inet_pton (AF_INET) 
200 
CETTIT 


路 含 0::1 一 个 sockaddr_in6{} 和 一 个 inet pton(AF INET6) 
AF. UNSPEC 隐 含 127.0.0.1 sockaddr_in{} inet pton(AF, INET) 
CET 
B127001 | 一 个 socxaaar ino 


图 11-8 ”getadqrinfo 函 数 及 其 行为 和 结果 汇总 
图 11-8 仅 仅 说 明 getadqrinfo 如 何 处 理 耻 v4 和 IPv6， 也 就 是 返回 给 调用 者 的 地 址 数目 。 返 
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回 给 调用 者 的 aaarinfo 结 构 的 确切 数目 还 取决 于 指定 的 套 接 字 类 型 和 服务 名 ， 就 如 图 11-6 总 结 
的 那样 。 
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我 们 将 使 用 一 个 测试 程序 来 展示 getaddarinfo 的 一 些 例子 ， 该 程序 允许 我 们 输入 所 有 参数 : 
主机 名 、 服 务 名 、 地 址 族 、 套 接 字 类 型 、AT_CANONNAME 和 AI_PASSIVE 标 志 。 (我 们 没有 给 出 这 
个 程序 的 源 文件 , 因为 它 约 有 350 行 教 益 不 大 的 代码 。 如 前 言 中 所 述 ， 它 作为 本 书 的 源 代码 提供 。) 
该 程序 输出 getadarinfo 函 数 返回 的 数目 不 定 的 addrinfo 结 构 中 的 有 关 信息 , 包括 调用 socket 
所 用 的 参数 以 及 每 个 套 接 字 地 址 结构 中 的 地 址 。 

我 们 首先 展示 与 图 11-5 同 样 的 例子 。 

freebsd $ testga -f inet -c -h freebsd4 -s domain 


socket (AF_INET, SOCK STREAM, 17), ai canonname = freebsd4.unpbook. cor 
address: 135.197.17.100:53 


socket (AF. INET, SOCK DGRAM, 17) 
address: 172.24.37.94:53 


socket (AF_INET, SOCK STREAM, 6), ài canonname = freebsd4.unpbook.com 
address: 135.197.17.100:53 


socket (AF_INET, SOCK DGRAM, 6) 
address: 172.24.37.94:53 


其 中 -f inet 选 项 指定 地 址 族 ，-c 表 示 返 回 规范 主机 名 ，-h freebsd4 指 定 主 机 名 ，-s domain 
指定 服务 名 。 

常见 的 客户 情形 是 指定 地 址 族 、 套 接 字 类 型 (-t 选 项 )、 主 机 名 和 服务 名 。 下 面 的 例子 展 
示 了 这 一 点 ， 其 中 主机 名 对 应 一 个 拥有 3 个 IPv4 地 址 的 多 宿主 机 。 

freebsd % testga -f inet -t stream -h gateway.tuc.noao.edu -8 daytime 


socket (AF_INET, SOCK STREAM, 6) 
address: 140.252.108.1:13 


socket (AF_INET, SOCK STREAM, 6) 
address: 140.252.1.4:13 


socket (AF_INET, SOCK STREAM, 6) 
address: 140.252.104.1:13 


接着 指定 的 是 我 们 的 主机 aix， 它 有 一 个 AAAA 记 录 和 一 个 A 记 录 。 我 们 不 指定 地 址 族 ， 不 
过 指定 一 个 服务 名 为 fcp， 该 服务 仅 在 TCP 上 提供 。 
freebsd $ testga -h aix -s ftp -t stream 


socket (AF_INET6, SOCK STREAM, 6) 
address: [3ffe:080:1£8d:2:204:acf£:£e17:b£38] :21 


socket (AF_INET, SOCK STREAM, 6) 
address: 192.168.42.2:21 


既然 没有 指定 地 址 族 , 而 且 本 例子 运行 在 一 个 同时 支持 IPv4 和 IPv6 的 主机 上 ， 因 此 有 2 个 地 
址 结构 返回 : 一 个 是 IPv4 的 ， 一 个 是 IPv6 的 。 

最 后 我 们 指定 Ar_PassIVE 标 志 〈-p 选 项 )， 但 是 不 指定 地 址 族 ， 也 不 指定 主机 名 《 隐 含 使 
用 通 配 地 址 )， 另 外 指定 端口 号 为 8888， 套 接 字 类 型 为 SOCK_STREAM。 

freebsd % testga -p -s 8888 -t stream 


socket {AF_INET6, SOCK STREAM, 6) 
address: [::]:8888 
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socket (AF_INET, SOCK STREAM, 6) 
address: 0.0.0.0:8888 


本 例子 返回 2 个 结构 。 既 然 我 们 是 在 一 个 同时 支持 IPv6 和 IPv4 的 主机 上 运行 本 例子 ， 又 没有 
指定 地 址 族 ，getaGarinfo 返 回 的 是 Pv6 通 配 地 址 和 IPv4 通 配 地 址 。IPv6 地 址 结构 早 于 IPv4 地 址 
结构 返回 ， 因 为 我 们 将 在 第 12 章 看 到 ， 双 栈 主机 上 的 IPv6 客 户 或 服务 器 既 能 与 IPv6 对 端 通信 ， 
也 能 与 IPv4 对 端 通信 。 


11.11. host serv 函数 





访问 getadarinfo 的 第 一 个 接口 函数 不 要 求 调用 者 分 配 并 填写 一 个 hints 结 构 。 该 结构 中 我 
们 感 兴趣 的 两 个 字段 〈 地 址 族 和 套 接 字 类 型 ) 成 为 这 个 名 为 host_serv 的 接口 函数 的 参数 。 


#include "unp.h" 


struct addrinfo *host serv(const char *hostname, const char *service, 
int family, int socktype) ; 


返回 ， 若 成 功 则 为 指向 addrinfo 结 构 的 指针 ， 若 出 错 则 为 NULL 


11-9 是 这 个 函数 的 源 代码 。 











—————À — — lib/host_serv.c 
1 #include "unp.h" 


2 struct addrinfo * 

3 host, serv(const char *host, const char *serv, int family, int socktype) 

4 í 

5 int n; 

6 struct addrinfo hints, *res; 

7 bzero(&hints, sizeof(struct addrinfo)); 

8 hints.ai flags - AI CANONNAME;  /* always return canonical name */ 

9 hints.ai family = family; /* AF UNSPEC, AF INET, AF, INET6, etc. */ 
10 hints.ai socktype - socktype; /* 0, SOCK STREAM, SOCK DGRAM, etc. */ 
11 if ( (n = getaddrinfo(host, serv, &hints, &res)) != 0) 

12 return (NULL); 

13 return(res); /* return pointer to first on linked list */ 
14 ) 





lib/host serv.c 
图 11-9 nost, servriA 


7-13 该 函数 初始 化 一 个 hints 结 构 ， 调 用 getadarinfo， 若 出 错 则 返回 一 个 空 指针 。 
我 们 将 在 图 16-17 中 调用 本 函数 ， 因 为 那 时 我 们 既 想 使 用 getaddrinfo 获 取 主 机 和 服务 信 
息 ， 又 想 自己 建立 连接 。 


11.12 tcp connect 函数 





现在 我 们 编写 使 用 getaadrinfo 处 理 TCP 客 户 和 服务 器 大 多 数 情形 的 两 个 函数 。 第 一 个 函 
数 即 tcp_connect 执 行 客户 的 通常 步骤 : 创建 一 个 TCP 套 接 字 并 连接 到 一 个 服务 器 。 
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#include "unp .hn" 


int tep_connect (const char *hostname, const char *service); 


返回 若 成 功 则 为 已 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返回 





图 11-10 是 该 函数 的 源 代码 。 





- - lib/tep connect.c 





1 #include “unp.h" 


2 int 
3 tep_connect (const char *host, const char *serv) 
4{ 
5 int sockfd, n; 
6 struct addrinfo hints, *res, *ressave; 
7 bzero(&hints, sizeof(struct addrinfo)); 
8 hints.ai_family = AF_UNSPEC; 
9 hints.ai_socktype = SOCK_STREAM; 
10 if ( (m = getaddrinfo(host, serv, &hints, &res)) != 0) 
11 err_quit ("tcp_connect error for %s, $s: %s", 
12 host, serv, gai_strerror(n)); 
13 ressave = res; 
14 do { 
15 sockfd = socket(res-»ai family, res->ai_socktype, res-»ai, protocol); 
16 if (sockfd « 0) 
17 continue; /* ignore this one */ 
18 if (connect (sockfd, res-»ai addr, res->ai_addrlen) == 0) 
19 break; /* success */ 
20 Close (sockfd) ; /* ignore this one */ 
21 } while ( (res = res-»ai next) != NULL); 
22 if (res == NULL) /* errno set from final connect() */ 
23 err_sys("tcp_connect error for %s, %s", host, serv); 
24 freeaddrinfo(ressave) ; 
25 return (sockfd) ; 
26 } 


———— — — — lib/tep. connect.c 


图 11-10 tcp_connect BAK: 执行 客户 的 通常 步骤 


调用 getadarinfo . 
7-13 ”调用 getaddrinfo 一 次 ， 指 定 地 址 族 为 AF_UNSPEC， 套 接 字 类 型 为 SOCK_STREAM。 
尝试 每 个 adadrinfo 结 构 直至 成 功 或 到 达 链 表 尾 
14-25 ”党 试 getaddrinfo 返 回 的 每 个 IP 地 址 ， 针 对 它们 调用 socket 和 connect。socket 调 用 
失败 不 是 致命 的 错误 ， 因 为 如 果 返 回 地 址 中 有 IPv6 地 址 而 主机 内 核 并 不 支持 IPv6， 这 
种 失败 就 可 能 发 生 。 如 果 connect 成 功 ，break 语 句 将 跳出 循环 。 和 否则 尝试 完 所 有 地 址 
后 ， 循 环 也 终止 。freeaddrinfo 把 所 有 动态 分 配 的 内 存 空间 返 送 回 系统 。 
一 旦 getaddrinfo 和 失败 或 者 connect 调 用 没有 一 次 成 功 ， 本 函数 (以 及 将 在 以 下 各 节 中 讲 
解 的 getaaarinfo 的 其 他 简单 接口 函数 ) 将 终止 。 它 们 只 是 在 成 功 时 才 返 回 。 这 些 函 数 不 另 加 
-个 参数 难以 返回 错误 码 〈 某 个 EAI_xxx 常 值 )。 这 意味 着 它们 的 包 庄 函数 无 所 事 事 。 


int 
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Tcp connect(const char *host,const char *serv) 
( 

return(tcp connect (host, serv)); 
) 


尽管 如 此 ， 为 了 保持 全 书 的 一 致 性 ， 我 们 照样 使 用 包 训 函数 而 不 是 tcp_connect。 
返回 值 的 问题 在 于 描述 符 是 非 负 的 , 但 是 我 们 不 清楚 ERAI_xxx 是 正 的 还 是 负 的 .如 果 这 些 


值 是 正 的 ， 那 么 我 们 可 以 在 gektaaGdarinfo 失 败 时 返回 这 些 值 的 负 值 ， 然 而 我 们 还 得 返回 另外 
某 个 负 值 以 表明 所 有 结构 都 已 无 一 成 功 地 尝试 完毕 。 


例子 : 时 间 获 取 客 户 程序 
图 11-11 是 把 图 1-5 中 的 时 间 获取 客户 程序 重新 编写 成 使 用 tcp_connect 的 结果 。 


- —— — — — —— names/daytimetcpcli.c 
1 #include "unp.h" 


2 int 
3 main(int argc, char **argv) 
4{ 
5 int sockfd, n; 
6 char recvline[MAXLINE + 1]; 
i socklen_t len; 
8 struct sockaddr storage ss; 
9 if (argc !- 3) 
10 err quit 
11 ("usage: daytimetcpcli <hostname/IPaddress> <service/port#>") ; 
12 sockfd = Tcp_connect (arav[i], argv[2]); 
13 len = sizeof(ss); 
14 Getpeername(sockfd, (SA *)&ss, &len); 
15 printf("connected to %s\n", Sock ntop host((SA *)&ss, len)); 
16 while ( (n = Read(sockfd, recvline, MAXLINE)) > 0) { 
17 recvline[n] - 0; /* null terminate */ 
18 Fputs(recvline, stdout); 
19 ) 
20 exit(0); 
21) 
— M ———— — — — — names/daytimetcpcli.c 
图 11-11 用 ccp_connect 重 新 编写 的 时 间 获 取 客 户 程 序 
命令 行 参 数 


9-11 ”我 们 需要 男 一 个 命令 行 参数 来 指定 服务 名 或 端口 号 ， 它 允许 本 程序 连接 到 其 他 端口 。 
连接 到 服务 器 


12 ”本 客户 程序 的 所 有 套 接 字 代 码 现 由 tcp_connect 执 行 。 


显示 服务 器 地 址 
13-15 ”我 们 调用 getpeername 取 得 服务 器 的 协议 地 址 并 显示 出 来 。 这 么 做 是 为 了 在 后 面 的 例 
子 中 验证 所 用 的 协议 。 


注意 ，tcp_connect 并 不 返回 内 部 connect 用 到 的 套 接 字 地 址 结构 大 小 。 我 们 可 以 增设 一 
个 指针 参数 来 返回 该 值 ， 然 而 本 函数 的 设计 目标 之 一 却 是 相 比 getaddrinfo 减 少 参数 的 数目 。 
于 是 我 们 改 用 一 个 sockaqaar_storage 套 接 字 地 址 结构 ， 它 大 得 足以 存放 系统 支持 的 任何 套 接 
字 地 址 类 型 ， 又 能 满足 它们 的 对 齐 限 制 。 
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这 个 版 本 的 客户 程序 同时 支持 IPv4 和 IPv6， 而 图 1-5 中 的 版 本 只 支持 IPv4， 图 1-6 中 的 版 本 只 
支持 IPv6。 你 还 应 该 对 比 这 个 新 版 本 和 图 E.12 中 的 版 本 ， 后 者 编写 成 使 用 gethostbyname 和 
getservbyname 以 同时 支持 IPv4 和 IPv6。 

我 们 首先 指定 一 个 只 支持 IPv4 的 主机 名 。 

freebsd $ daytimetcpcli linux daytime 


connected to 206.168.112.96 
Sun Jul 27 23:06:24 2003 


我 们 接着 指定 一 个 同时 支持 IPv4 和 IPv6 的 主机 名 。 


freebsd $ daytimetcpcli aix daytime 

connected to 3ffe:b80:1£8d:2:204:acff:fel17:bf38 

Sun Jul 27 23:17:13 2003 
本 例子 实际 使 用 IPv6 地 址 的 原因 在 于 : 该 主机 既 有 一 个 AAAA 记 录 又 有 一 个 A 记录 ， 而 
tcp_connect 把 地 址 族 设 为 AE_UNSPEC， 根据 图 11-8， 首先 搜索 的 是 AAAA 记 录 , 然后 搜索 的 是 
A 记录 ，connect 顺 序 靠 前 的 IPv6 地 址 一 旦 成 功 ，tcp_connect 就 不 再 尝试 connect 顺 序 靠 后 的 
IPv4 地 址 。 

在 下 一 个 例子 中 ， 我 们 通过 指定 带 -4 后缀 的 主机 名 来 强制 使 用 IPv4 地 址 ， 我 们 已 在 11.2 节 
指出 这 是 我 们 对 于 只 有 A 记录 的 主机 名 的 约定 命名 。 

freebsd % daytimetcpcli aix-4 daytime 


connected to 192.168.42.2 
Sun Jul 27 23:17:48 2003 


下 一 个 函数 即 ccp_1isten 执 行 TCP 服 务 器 的 通常 步骤 : 创建 一 个 TCP 套 接 字 ， 给 它 捆绑 服 
务 器 的 众所周知 端口 ， 并 允许 接受 外 来 的 连接 请 求 。 图 11-12 是 它 的 源 代码 。 


finclude "unp.h" 


int tcp listen(const char *hostname, const char *service, socklen t *addrlenp) ; 
返回 ， 若 成 功 则 为 已 连接 套 接 字 描述 符 ， 若 出 错 则 不 返回 

调用 getaddrinfo 

8-15 初始 化 一 个 aaarinfo 结 构 提供 如 下 暗示 信息 : AI PAssIVE (因为 本 函数 供 服务 器 使 
用 )、aF_UNSPEC〈 地 址 族 )、sSocK_SsTREAM。 回 顾 图 11-8， 如 果 不 指定 主机 名 《对 于 
想 捆 绑 通 配 地 址 的 服务 器 通常 如 此 )，AI_PASSIVE 和 AF_UNSPEC 这 两 个 暗示 信息 将 会 
返回 两 个 套 接 字 地 址 结构 :第 一 个 是 IPv6 的 ， 第 二 个 是 IPv4 的 《假定 运行 在 一 个 双 栈 
主机 上 )。 

创建 套 接 字 并 给 它 捆绑 地 址 

16-25 调用 socket 和 bina 函 数 。 如 果 任 何 一 个 调用 失败 ， 那 就 忽略 当前 aaarinfo 结 构 而 改 
用 下 一 个 。 正如 7.5 节 中 声明 的 那样 , 对 于 TCP 服 务 器 我 们 总 是 设置 so_REUSEADDR 套 接 
字 选 项 。 
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一 lib/tcp listen.c 
1 #include "unp.h" 
2 int 
3 tcp listen(const char *host, const char *serv, socklen t *addrlenp) 
4 ( 
5 int listenfd, n; 
6 const int on - 1; 
7 struct addrinfo nints, *res, *ressave; 


8 bzero(&hints, sizeof(struct addrinfo)); 
9 hints.ai flags - AI PASSIVE; 
0 
1 


1 hints.ai_family = AF_UNSPEC; 

1 hints.ai_socktype = SOCK_STREAM; 

12 if ( (n = getaddrinfo(host, serv, &hints, &res)) !- 0) 

13 err quit("tcp listen error for ts, %s: %s", 

14 host, serv, gai, strerror(n)): 

15 ressave - res; 

16 do ( 

17 listenfd - 

18 Socket (res-»ai family, res-»ai socktype, res-»ai, protocol); 
19 if (listenfd « 0) 

20 continue; /* error, try next one */ 

21 Setsockopt(listenfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
22 if (bind(listenfd, res-»ai, addr, res->ai_addrlen) == 0) 

23 break; /* success */ 

24 Close(listenfd); /* bind error, close and try next one */ 
25 ) while ( (res - res-»ai next) !- NULL); 

26 if (res -- NULL) /* errno from final socket() or bind() */ 
27 err sys("tcp listen error for $s, $s", host, serv); 

28 Listen(listenfd, LISTENQ); 

29 if (addrlenp) 

30 *addrlenp - res-»ai addrlen; /* return size of protocol address */ 
31 freeaddrinfo(ressave) ; 

32 return (listenfd) ; 

33 ) 





lib/tcp listen.c 
图 11-12 tcp_listen 函 数 ， 执 行 服务 器 的 通常 步骤 


检查 是 否 失败 

26-27 ”如 果 针 对 每 个 地 址 结构 的 socket 调 用 和 bina 调 用 都 失败 ， 我们 就 显示 一 个 出 错 消息 并 终止 。 
就 像 前 一 节 的 tcp_connect 函 数 一 样 ， 本 函数 也 不 会 试图 返回 这 种 错误 。 

28 ”调用 1isten 使 得 当前 套 接 字 变 成 一 个 监听 套 接 字 。 

返回 套 接 字 地 址 结构 的 大 小 

29-32 ”如 果 addrienp 参 数 非 空 ， 我 们 就 通过 这 个 指针 返回 协议 地 址 的 大 小 。 这 个 大 小 允许 调 
用 者 在 通过 accept 获 取 客 户 的 协议 地 址 时 分 配 一 个 套 接 字 地 址 结构 的 内 存 空 间 。( 另 
见习 题 11.7。) 
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11.13.1 例子 : 时 间 获 取 服 务 器 程序 
图 11-13 是 把 图 4-11 的 时 间 获 取 服 务 器 程序 重新 编写 成 使 用 tcp_1isten 的 结果 。 


names/daytimetcpsrvl.c 
1 #include "unp.h" 
2 *include «time.h» 
3 int 
4 main(int argc, char **argv) 
5 { 
6 int listenfd, connfd; 
7 socklen_t len; 
8 char buff [MAXLINE]; 
9 time_t ticks; 
10 struct sockaddr storage cliaddr; 
11 if (argc != 2) 
12 err quit("usage: daytimetcpsrvl «service or port#>"); 
13 listenfd - Tcp listen(NULL, argv[1], NULL); 
14 for (; 3) ¢ 
15 len = sizeof (cliaddr); 
16 connfd = Accept (listenfd, (SA *)&cliaddr, &len); 
17 printf("connection from %s\n", Sock ntop((SA *)&cliaddr, len)); 
18 ticks = time(NULL) ; 
19 snprintf(buff, sizeof(buff), “%.24s\r\n", ctime(&ticks) ); 
20 Write(connfd, buff, strlen(buff)); 
21 Close (connfd) ; 
22 } 
23 } 


names/daytimetcpsrv1.c 


图 11-13 用 tcp_listen 重 新 编写 的 时 间 获 取 服 务 器 程序 ( 另 见 图 11-14) 


服务 名 或 端口 号 需 作为 命令 行 参数 

11-12 ”我 们 需要 一 个 命令 行 参 数 来 指定 服务 名 或 端口 号 。 这 样 更 便于 测试 本 服务 器 程序 ， 因 
为 给 标准 daytime 服 务 器 捆绑 端口 13 需 要 超级 用 户 特权 。 

创建 监听 套 接 字 

13 tcp_listen 创 建 监 听 套 接 字 。 作 为 第 三 个 参数 传递 给 该 函数 的 是 一 个 空 指针 ， 因 为 我 

们 并 不 关心 当前 地 址 族 在 使 用 多 大 大 小 的 地 址 结构 ， 我 们 将 使 用 sockadar_storage。 

服务 器 循环 

14-22 accept 等 待 每 个 客户 连接 .sock_ntop 用 于 输出 客户 的 地 址 。 无 论 是 IPv4 还 是 IPv6， 
该 函数 都 会 显示 IP 地 址 和 端口 号 。 我 们 可 以 使 用 getnameinfo 函 数 〈11.17 节 ) 尝试 
获取 客户 主机 的 主机 名 , 不 过 这 将 涉及 DNS 中 的 PTR 记 录 查 询 , 而 PTR 查 询 需 花 一 段 
时 间 ， 特 别 是 在 查询 失败 的 情形 下 。TCPv3 的 14.8 节 指出 : 在 一 个 繁忙 的 Web 服 务 器 
EME, 与 之 建立 连接 的 所 有 客户 主机 中 没有 PTR 记 录 的 几乎 占 25%。 既然 不 想 让 服 
务 器 (特别 是 迭代 服务 器 就 为 PTR 查 询 等 待 数秒 钟 ， 我 们 于 是 直接 显示 IP 地 址 和 端 
口号 。 
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11.13.2 例子 : 可 指定 协议 的 时 间 获 取 服 务 器 程序 


图 11-13 中 的 程序 存在 一 个 小 问题 : tcp_listen 的 第 一 个 参数 是 一 个 空 指针 ， 而 且 由 
ccp_listen 内 部 指定 的 地 址 族 为 AF_UNSPEC， 两 者 结合 可 能 导致 getadqrinfo 返 回 非 期 望 地 址 
族 的 套 接 字 地 址 结构 。 举 例 来 说 ， 在 双 栈 主机 上 返回 的 第 一 个 套 接 字 地 址 结构 将 是 PPv6 的 〈 图 
11-8)， 但 是 我 们 可 能 希望 该 服务 器 仅仅 处 理 IPv4。 

客户 程序 没有 这 样 的 问题 ， 因 为 客户 总 得 指定 一 个 IP 地 址 或 主机 名 。 客 户 程序 通常 允许 用 
户 作 为 命令 行 参 数 输入 它 。 我 们 于 是 有 机 会 指定 一 个 与 特定 类 型 的 耻 地 址 关联 的 主机 名 《回顾 
11.2 节 带 -4 或 -6 后 缀 的 主机 名 )， 或 者 要 么 指定 一 个 IPv4 的 点 分 十 进 制 数 串 〈 以 强制 使 用 IPv4)， 
要 么 指定 一 个 IPv6 的 十 六 进 制 数 串 〈( 以 强制 使 用 IPv6)。 

然而 有 
允许 用 户 作为 程序 的 命令 行 参数 输入 一 个 IP 地 址 或 主机 名 ， 并 把 它 传递 给 getadarinfo。 如 果 
输入 的 是 IP 地 址 ,那么 IPv4 的 点 分 十 进 制 数 串 不 同 于 IPv6 的 十 六 进 制 数 串 。 对 于 inet_pton 的 如 
下 调用 将 如 下 所 示 地 成 功 或 失败 。 





inet pton(AE INET, "0.0.0.0", &foo); /* succeeds */ 
inet pton(AF INET, "0::0", &foo); /* fails */ 
inet pton(AF INET6,"0.0.0.0", &foo); /* fails */ 
inet pton(AF INET6,"0::0", &foo); /* succeeds */ 
因此 ， 如 果 把 我 们 的 服务 器 程序 改 为 能 够 接受 一 个 可 选 的 参数 ， 那 么 要 是 键入 
% server 


在 双 栈 主机 上 就 默认 为 使 用 [Pv6， 但 是 键入 
$ server 0.0.0.0 
则 显 式 指定 使 用 IPv4， 键 入 


% server 0::0 


则 显 式 指 定 使 用 IPv6。 
图 11-14 是 我 们 的 时 间 获 取 服 务 器 程序 的 最 终 版 本 。 
处 理 命令 行 参数 


11-16 与 图 11-13 相 比 唯一 的 改动 是 对 命令 行 参数 的 处 理 ， 除 了 服务 名 或 端口 号 外 ， 新 版 本 多 
许 用 户 指定 一 个 主机 名 或 下 地 址 供 服 务 器 捆绑 。 
我 们 首先 以 一 个 IPv4 套 接 字 启 动 服 务 器 ， 然 后 从 运行 在 处 于 同一 本 地 子 网 的 另外 两 个 主机 
上 的 客户 向 该 服务 器 发 起 连接 。 


freebsd € daytimetcperv2 0.0.0.0 9999 
connection from 192.168.42.2:32961 
connection from 192.168.42.3:1389 


接着 以 一 个 IPv6 套 接 字 启 动 服务 器 。 


freebsd $% daytimetcpsrv2 0::0 9999 

connection from [3ffe:b80:1f8d:2:204:acff:£e17:)0£38]:32964 
connection from [3ffe:580:1f8d:2:230:65££:£e15:caa7] :49601. 
connection from [::ffff:192.168.42.2]:32967 

connection from [::£fff:192.168.42.3]:49602 


第 一 个 连接 来 自主 机 aix 并 使 用 IPv6， 第 二 个 连接 来 自主 机 macosx 并 使 用 IPv6。 随后 两 个 连接 
同样 来 自主 机 aix 和 macosx， 不 过 使 用 IPv4 而 不 是 IPv6。 这 是 因为 由 accept 返 回 的 这 两 个 客户 
的 地 址 都 是 IPv4 映 射 的 IPv6 地 址 。 
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-— - names/daytimetcpsrv2.c 
1 #include "unp.h" 
2 #include «time.h» 
3 int 
4 main(int argc, char **argv) 
5 { 
6 int listenfd, connfd; 
7 socklen_t len; 
8 char buff [MAXLINE]; 
9 time_t ticks; 
10 struct sockaddr storage cliaddr; 
11 if (argc == 2) 
12 listenfd - Tcp listen(NULL, argv[1], &addrlen); 
13 else if (argc -- 3) 
14 listenfd - Tcp listen(argv[1], argv[2], &addrlen); 
15 else 
16 err quit("usage: daytimetcpsrv2 [ «host» ] «service or port>"); 
17 for (; 3) ( 
18 len = sizeof(cliaddr); 
19 connfd - Accept(listenfd, (SA *)&cliaddr, &len); 
20 printf ("connection from %s\n", Sock ntop((SA *)&cliaddr, len)); 
21 ticks - time(NULL); 
22 snprintf(buff, sizeof(buff), "%.24s\r\n", ctime(&ticks)); 
23 Write(connfd, buff, strlen(buff)); 
24 Close (connfd); 
25 } 
26 } 

names/daytimetcpsrv2.c 


图 11-14 使 用 rcp_listen 的 协议 无 关 时 间 获 取 服 务 器 程序 


我 们 刚才 已 经 展示 : 运行 在 双 栈 主机 上 的 IPv6 服 务 器 既 能 够 处 理 IPv4 客 户 , 也 能 够 处 理 IPv6 
客户 。 正 如 12.2 节 将 讨论 的 那样 ，IPv4 客 户主 机 的 地 址 作为 IPv4 映 射 的 IPv6 地 址 传递 给 IPv6 服 务 
器 。 
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访问 getadadarinfo 的 较 简 单 接口 函数 对 于 UDP 情形 有 所 改变 ， 即 客户 函数 演变 成 两 个 : 一 
个 是 本 节 讲 解 的 用 于 创建 未 连接 UDP 套 接 字 的 udap_client 函 数 , 另 一 个 是 下 一 节 讲 解 的 用 于 创 
建 已 连接 UDP 套 接 字 的 udp_connect 函 数 。 


#include "unp.h" 


int udp client(const char *hostname, const char *service, 
struct sockaddr **saptr, socklen t *lenp); 


返回 .车 成 功 则 为 未 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返回 


本 函数 创建 一 个 未 连接 UDP 套 接 字 ， 并 返回 三 项 数据 。 首先， 返回 值 是 该 套 接 字 的 描述 符 。 
其 次 ,saptr 是 指向 某 个 (由 udp_client 动 态 分 配 的 ) 套 接 字 地 址 结构 的 (由 调用 者 自行 声明 的 ) 
一 个 指针 的 地 址 ， 本 函数 把 目的 人 P 地 址 和 端口 存放 在 这 个 结构 中 ， 用 于 稍 后 调用 senato。 最 后 ， 
这 个 套 接 字 地 址 结构 的 大 小 在 lenp 指 向 的 变量 中 返回 。lenp 这 个 结尾 参数 不 能 是 一 个 空 指针 (而 
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tcp_listen 允 许 其 结尾 参数 是 一 个 空 指针 ), 因为 任何 sendto 和 recvfrom 调 用 都 需要 知道 套 接 
字 地 址 结构 的 长 度 。 
图 11-15 给 出 了 这 个 函数 的 源 代码 。 


M ————- lib/udp. client.c 
1 #include "unp.h" 
2 int 
3 udp_client (const char *host, const char *serv, SA **saptr, socklen t *lenp) 


4t 
5 int sockfd, n; 

6 struct addrinfo hints, *res, *ressave; 
7 

8 


bzero(&nints, sizeof(struct addrinfo)); 
hints.ai family - AF UNSPEC; 


9 hints.ai socktype - SOCK DGRAM; 

10 if ( (n = getaddrinfo(host, serv, &hints, &res)) !- 0) 

11 err quit("udp client error for $s, %s: %s", 

12 host, serv, gai strerror (n)); 

13 ressave - res; 

14 do ( 

15 sockfd = socket(res-»ai, family, res-»ai, socktype, res-»ai protocol); 
16 if (sockfd »- 0) 

17 break; /* success */ 

18 } while ( (res = res->ai_next) != NULL); 

19 if (res == NULL) /* errno set from final socket() */ 
20 err_sys("udp_client error for %s, %s", host, serv); 

21 *saptr = Malloc(res->ai_addrlen) ; 

22 memcpy (*saptr, res->ai_addr, res-»ai addrlen); 

23 *lenp = res->ai_addrlen; 

24 freeaddrinfo (ressave) ; 

25 return (sockfd) ; 

26 ) 


lib/udp client.c 











图 11-15 uap_client 函 数 : 创建 一 个 未 连接 UDP 套 接 字 


getaddrinfo 用 于 转换 hostname 和 service 参 数 。socket 用 于 创建 一 个 数据 报 套 接 字 。 
malloc 用 于 分 配 一 个 套 接 字 地 址 结构 的 内 存 空间 , 并 由 memcpy 把 对 应 所 创建 套 接 字 的 地 址 结构 
复制 到 这 个 内 存 空 间 中 。 


例子 : 协议 无 关 时 间 获 取 客 户 程序 


我 们 现在 把 图 11-11 中 的 时 间 获 取 客 户 程序 重新 编写 成 改 用 UDP 和 uap_client 函 数 。 图 
11-16 给 出 了 这 个 协议 无 关 程 序 的 源 代码 。 
12-17 我们 调用 uap_client 函 数 ， 然 后 显示 将 向 其 发 送 UDP 数 据 报 的 服务 器 的 下 地 址 和 端口 
号 。 发 送 一 个 1 字 节 的 数据 报 后 读 取 并 显示 应 答 数据 报 。 
实际 上 我 们 只 需要 发 送 一 个 0 字 节 的 UDP 数据 报 ， 因 为 来 自 标准 daytime 服 务 器 的 响应 只 


靠 数据 报 的 到 达 触 发 ， 而 与 其 长 度 或 内 容 无 关 。 然 而 许多 SVR4 实 现 却 不 允许 0 长 度 的 UDP 数 
HH. 
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names/daytimeudpclil.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 


int Sockfd, n; 

char recvline[MAXLINE + 1]; 
socklen_t salen; 

struct sockaddr *sa; 


if (arge != 3) 


N P oto oo -JOovu 4& 
~ 


1 err_quit 

1 ("usage: daytimeudpclil <hostname/IPaddress> <service/port#>"); 
1 sockfd = Udp_client (argv[1], argv[2], (void **) &sa, &salen); 

13 printf ("sending to %s\n", Sock ntop host(sa, salen)); 

14 Sendto(sockfd, "", 1, 0, sa, salen); /* send 1-byte datagram */ 

15 n = Recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL); 

16 recvline[n] = '\0'; /* null terminate */ 

17 Fputs(recvline, stdout); 

18 exit (0); 

19 } 


names/daytimeudpclil.c 
图 11-16 使 用 udqp_client 的 UDP 时 间 获 取 客 户 程序 


我 们 首先 指定 拥有 一 个 AAAA 记 录 和 一 个 A 记录 的 某 个 主机 名 运行 本 客户 程序 。 既 然 由 
getaddrinfo 首 先 返回 的 是 对 应 AAAA 记 录 的 结构 ， 所 创建 的 是 一 个 IPv6 套 接 字 。 
freebsd $ daytimeudpclil aix daytime 


sending to 3ffe:b80:1£8d:2:204:acff:fel7:bf£38 
Sun Jul 27 23:21:12 2003 


我 们 接着 指定 同一 个 主机 的 点 分 十 进 制 数 串 地 址 ， 结 果 创 建 的 是 一 个 IPv4 套 接 字 。 


freebsd $ daytimeudpclil 192.168.42.2 daytime 
sending to 192.168.42.2 
Sun Jul 27 23:21:40 2003 
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udp_connect 函 数 创建 一 个 已 连接 UDP 套 接 字 。 


#include "unp.n" i 


int udp. connect (const char *hostname, const char *service); 


返回 : 车 成 功 则 为 已 连接 套 接 字 描述 符 ， 若 出 错 则 不 返回 


有 了 已 连接 UDP 套 接 字 后 ，udp_client 必 需 的 结尾 两 个 参数 就 不 再 需要 了 。 调 用 者 可 改 用 
write 代替 senGto， 因 此 本 函数 不 必 返 回 一 个 套 接 字 地 址 结构 及 其 长 度 。 
图 11-17 是 本 函数 的 源 代码 。 
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— lib/udp connect.c 

1 #include "unp.h* 
2 int 
3 udp connect(const char *host, const char *serv) 
4 (1 
5 int sockfd, n; 
6 struct addrinfo hints, *res, *ressave; 
7 bzero(&hints, sizeof(struct addrinfo)); 
8 hints.ai family - AF UNSPFC; 
9 hints.ai socktype - SOCK DGRAM; 
10 if ( (n = getaddrinfo(host, serv, &hints, &res)) != 0) 
11 err quit("udp connect error for $s, $s: $s", 
12 host, serv, gai strerrorin)); 
13 ressave - res; 
14 do ( 
15 sockfd = socket(res-»ai family, res-»ai socktype, res-»ai protocol); 
16 if (sockfd « 0) 
17 continue; /* ignore this one */ 
18 if (connect(sockfd, res-»ai addr, res-»ai addrlen) -- 0) 
19 break; /* success */ 
20 Close(sockfd); /* ignore this one */ 
21 ) while ( (res - res-»ai next) !- NULL); 
22 if (res -- NULL) /* errno set from final connect() */ 
23 err sys("udp connect error for $s, $s", host, serv); 
24 freeaddrinfo(ressave) ; 
25 return (sockfd) ; 
26 } 

~ i —————— — — — —— lib/udp connect.c 


图 11-17 udp_connect MR: 创建 一 个 已 连接 UDP 套 接 字 


本 函数 几乎 等 同 于 cp_connect。 两 者 的 差别 之 一 是 UDP 套 接 字 上 的 connect 调 用 不 会 发 
送 任何 东西 到 对 端 。 如 果 存 在 错误 〈 璧 如 对 端 不 可 达 或 所 指定 端口 上 没有 服务 器 )， 调 用 者 就 得 


等 到 向 对 端 发 送 一 个 数据 报 之 后 才能 发 现 。 


—————— ——————— —————A————————————————Á—OÓ EA 
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用 于 简化 访问 getadadrinfo 的 最 后 一 个 UDP 接口 函数 是 udap_server。 


#include "unp.h" 


int udp server(const char *hostname, const char *service, socklen t *lenptr) ; 


返回 : 若 成 功 则 为 未 连接 套 接 字 描 述 符 ， 若 出 错 则 不 返回 


本 函数 的 参数 与 ccp_listen 一 样 ， 有 一 个 可 选 的 hostmame 和 一 个 必需 的 service〈 从 而 可 捆 
绑 其 端口 号 )， 以 及 一 个 可 选 的 指向 某 个 变量 的 指针 ， 用 于 返回 套 接 字 地 址 结构 的 大 小 。 


图 11-18 给 出 本 函数 的 源 代码 。 
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lib/udp_server.c 


1 #include "unp.h" 


2 int 


3 udp server(const char *host, const char *serv, socklen t *addrlenp) 


( 


29 ) 





int sockfd, n; 
struct addrinfo hints, *res, *ressave; 


bzero(&hints, sizeof(struct addrinfo)); 
hints.ai flags = AI PASSIVE; 

hints.ai family - AF UNSPEC; 

hints.ai, socktype = SOCK_DGRAM; 


if ( (n = getaddrinfo(host, serv, &hints, &res)) !- 0) 
err quit("udp server error for $s, %s: %s", 
host, serv, gai strerror(n)); 
ressave - res; 


do ( 
sockfd = socket(res-»ai family, res-»ai socktype, res-»ai protocol); 
if (sockfd < 0) 


continue; /* error - try next one */ 
if (bind(sockfd, res--ai addr, res-»ai addrlen) == 0) 
break; /* success */ 
Close(sockfd); /* bind error - close and try next one */ 
) while ( (res = res-»ai next) !- NULL); 
if (res -- NULL) /* errno from final socket() or bind() */ 


err sys("udp, server error for %s, $s", host, serv); 


if (addrlenp) 
*addrlenp = res-»ai, addrlen; /* return size of protocol address */ 


freeaddrinfo(ressave) ; 


return (sockfd) ; 
lib/udp_server.c 
图 11-18 udp serverPÁZE: 为 UDP 服务 器 创建 一 个 未 连接 套 接 字 


除了 没有 调用 1isten 外 ,本 函数 几乎 等 同 于 cp_listen。 我 们 把 地 址 族 设置 成 AF_UNSPEC， 


不 过 调用 者 可 以 使 用 我 们 随 图 11-14 讲 解 的 同样 技巧 来 强制 使 用 某 个 特定 协议 〈IPv4 或 IPv6)。 


对 于 UDP 套 接 字 我 们 不 设置 So_REUSEADDR 选 项 ， 因 为 正如 7.5 节 所 述 ， 本 套 接 字 选项 允许 


在 支持 多 播 的 主机 上 把 同一 个 UDP 端口 捆绑 到 多 个 套 接 字 上 。 既 然 UDP 套 接 字 没有 TCP 的 
TIME_WAIT 状 态 的 类 似 物 ， 启 动 服务 器 时 就 没有 设置 这 个 套 接 字 选项 的 必要 。 


例子 : 协议 无 关 时 间 获 取 服 务 器 程序 


图 11-19 给 出 修改 自 图 11-14， 改 用 UDP 的 时 间 获 取 服 务 器 程序 。 


[39] 
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— - - — - names/daytimeudpsrv2.c 
1 include "unp.h" 
2 tinclude «time.h» 
3 int 
4 main(int argc, char **argv) 
5 { 
6 int sockfd; 
7 ssize_t n; 
8 char buff (MAXLINE} ; 
9 time t ticks; 
10 socklen_t len; 
11 struct sockaddr storage cliaddr; 
12 if (argc == 2) 
13 sockfd = Udp_server (NULL, argv[i], NULL); 
14 else if (argc == 3) 
15 sockfd = Udp server(argv[1], argví2], NULL); 
16 eise 
17 err quit("usage: daytimeudpsrv [ «host» 】 «service or port»"); 
18 for (325 3f 
19 len = sizeof(cliaddr); 
20 n = Recvfrom(sockfd, buff, MAXLINE, 0, (SA *)&cliaddr, &ien); 
21 printf("datagram from %s\n", Sock ntop((SA *)&cliaddr, len)); 
22 ticks - time(NULL); 
23 snprintf(buff, sizeof(buff), "%.24s\r\n", ctime(&ticks)); 
24 Sendto(sockfd, buff, strlen(buff), 0, (SA *)&cliaddr, len); 
25 ) 
26 ] 
names/daytimeudpsrv2.c 


图 11-19 协议 无 关 的 UDP 时 间 获 取 服 务 器 程序 
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getnameinfo 是 getaddrinfo 的 互补 函数 ， 它 以 一 个 套 接 字 地 址 为 参数 ， 返 回 描述 其 中 的 
主机 的 一 个 字符 串 和 描述 其 中 的 服务 的 另 一 个 字符 串 。 本 函数 以 协议 无 关 的 方式 提供 这 些 信息 ， 
也 就 是 说 ， 调 用 者 不 必 关 心 存放 在 套 接 字 地 址 结构 中 的 协议 地 址 的 类 型 ， 因 为 这 些 细节 由 本 函 
数 自 行 处 理 。 


finclude «netdb.h» 


int getnameinfo(const struct sockaddr *sockaddr, socklen t addrlen, 


char *host, socklen t hostlen, 
char *serv, socklen t servlen, int flags); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 非 0〈 见 图 11-7) 





sockaddr 指 向 一 个 套 接 字 地 址 结构 ， 其 中 包含 待 转换 成 直观 可 读 的 字符 串 的 协议 地 址 ， 
addrlen 是 这 个 结构 的 长 度 。 该 结构 及 其 长 度 通常 由 accept 、recvfrom、getsockname 或 
getpeernamejk |a]. 

待 返回 的 2 个 直观 可 读 字 符 串 由 调用 者 预先 分 配 存储 空间 ，jpost 和 jostien 指 定 主机 字符 串 ， 
serv 和 servien 指 定 服务 字符 串 。 如 果 调 用 者 不 想 返回 主机 字符 串 ， 那 就 指定 posten 为 0。 同 样 ， 
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把 servien 指 定 为 0 就 是 不 想 返 回 服务 字符 串 。 

sock_ntop 和 getnameinfo 的 差别 在 于 ， 前 者 不 涉及 DNS， 只 返回 了 瑟 地 址 和 端口 号 的 一 个 
可 显示 版 本 ; 后 者 通常 尝试 获取 主机 和 服务 的 名 字 。 

图 11-20 中 给 出 了 6 个 可 指定 的 标志 ， 用 于 改变 getnameinfo 的 操作 。 


NI_DGRAM 
NI_NAMEREQD 若 不 能 从 地 上 址 解析 出 名 字 则 返回 错误 


NI_NOFQDN 只 返回 FQDN 的 主机 名 部 分 
NI NUMERICHOST vL s sog p] E BLUE FF E 
NI NUMERICSCOPE 以 数 串 格式 返回 范围 标识 字符 串 
NI_NUMERICSERV 以 数 串 格 式 返 回 服务 字符 串 


图 11-20 ”getnameinfo 的 标志 值 





当知 道 处 理 的 是 数据 报 套 接 字 时 ,调用 者 应 设置 NI_DGRAM 标 志 ， 因 为 在 套 接 字 地 址 结构 中 
给 出 的 仅仅 是 IP 地 址 和 端口 号 ，getnameinfo 无 法 就 此 确定 所 用 协议 ‘TCP 或 UDP)。 有 若干 个 
端口 号 在 TCP 上 用 于 一 个 服务 ， 在 UDP 上 却 用 于 截然 不 同 的 另 一 个 服务 。 端 口 514 就 是 这 样 的 一 
个 例子 ， 它 在 TCP 上 提供 rsh 服 务 ， 在 UDP 上 提供 syslog 服 务 。 

如 果 无 法 使 用 DNS 反 向 解析 出 主机 名 ，NIT_NaMEREOD 标 志 将 导致 返回 一 个 错误 。 需 要 把 客 
户 的 IP 地 址 映射 成 主机 名 的 那些 服务 器 可 以 使 用 这 个 特性 。 这 些 服 务 器 随后 以 这 样 返回 的 主机 
名 调用 gethostbyname， 以 便 验证 gethostbyname 返 回 的 某 个 地 址 就 是 早先 调用 getnameinfo 
指定 的 套 接 字 地 址 结构 中 的 地 址 。 

NI_NOFODN 标 志 导 致 返回 的 主机 名 第 一 个 点 号 之 后 的 内 容 被 截 去 。 举 例 来 说 ， 假 设 套 接 字 
地 址 结构 中 的 人 P 地 址 为 192.168.42.2， 那 么 不 设置 本 标志 的 gethostbyaddr 返 回 的 主机 名 为 
aix.unpbook.com， 而 设置 本 标志 的 gethostbyadar 返 回 的 主机 名 为 aix。 

NI_NUMERICHOST 标 志 告知 getnameinfo 不 要 调用 DNS (因为 调用 DNS 可 能 耗 时 )， 而 是 以 
数值 表达 格式 以 字符 串 的 形式 返回 IP 地 址 (可 能 通过 调用 inet_ntop 实 现 )。 类 似 地 ， 
NI_NUMERICSERV 标 志 指 定 以 十 进 制 数 格式 作为 字符 串 返 回 端口 号 ， 以 代替 查找 服务 名 ; 
NI_NUMERICSCOPE 标 志 指 定 以 数值 格式 作为 字符 串 返 回 范围 标识 ， 以 代替 其 名 字 。 既 然 客户 的 
端口 号 通常 没有 关联 的 服务 名 一 一 它们 是 临时 的 端口 ， 服 务 器 通常 应 该 设置 NI_NUMERICSERV 

对 于 这 些 标志 有 意义 的 组 合 (例如 NI_DGRAM 和 NI_NUMERICHOST)， 可 以 把 其 中 各 个 标志 逻 
辑 或 在 一 起 。 
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11.3 节 的 gethostbyname 函 数 提出 了 一 个 我 们 尚未 讨论 过 的 有 趣 问 题 : 它 不 是 可 重 入 的 
(re-entrant)。 到 第 26 章 讨论 线程 时 我 们 会 普 过 地 遇 到 这 个 问题 ， 不 过 在 涉及 线程 概念 之 前 探讨 
本 问题 并 查看 其 解决 办 法 也 是 必要 的 。 

我 们 首先 查看 该 函数 的 工作 机 理 。 如 果 阅 读 其 源 代 码 〈 这 一 点 易于 做 到 ， 因 为 整个 BIND 
版 本 的 源 代码 都 是 公开 可 得 的 )， 我 们 会 发 现 一 个 包含 gethostbyname 和 gethostbyaddr 的 文 
件 ， 该 文件 的 内 容 大 体 如 下 : 
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static struct hostent host; /* result stored here */ 


struct hostent * 
gethostbyname(const char *hostname) 
( 
return(gethostbyname2 (hostname, family)); 
) 


struct hostent * 
gethostbyname2(const char *hostname, int family) 
( 

/* call DNS functions for A or AAAA query */ 


/* fill in host structure */ 


return(&host); 
) 


struct hostent * 
gethostbyaddr(const char *addr, socklen t len, int family) 
{ 
/* call DNS functions for PTR query in in-addr.arpa domain */ 


/* fill in host structure */ 


return (&host) ; 
} 


我 们 突出 显示 结果 结构 的 static 存 储 类 别 限定 词 ， 意 在 表明 它 是 问题 的 关键 。 该 文件 中 定 
义 的 3 个 函数 共用 同一 个 host 变 量 这 一 事实 还 引入 了 我 们 将 在 习题 11.1 中 讨论 的 另 一 个 问题 。 
(其 中 gethostbyname2 函 数 是 在 BIND 4.9.4 中 为 支持 IPv6 而 引入 的 。 它 现 已 被 淘汰 ， 详 见 11.20 
节 。 当 调用 gechostbyname 时 ,我 们 将 忽略 它 实际 上 调用 gethostbyname2 这 一 事实 ， 因 为 如 此 
忽略 并 不 影响 本 讨论 。) 

在 一 个 普通 的 UNIX 进 程 中 发 生 重 入 问题 的 条 件 是 :从 它 的 主 控制 流 中 和 某 个 信号 处 理 函 数 
中 同时 调用 gethostbyname 或 gethostbyaddqr。 当 这 个 调用 信和 号 处 理 函 数 被 调用 时 【〈 警 如 说 它 
是 一 个 每 秒 钟 产 生 一 次 的 SIGALRM 信 号 )， 该 进程 的 主 控制 流 被 暂停 以 执行 信号 处 理 函 数 。 考 虑 
如 下 例子 : 

main() 


{ 
struct hostent *hptr; 


signal (SIGALRM, sig alrm); 


hptr = gethostbyname( ... ); 


} 


void 
sig_alrm(int signo) 


struct hostent *hptr; 


hptr = gethostbyname( ... ); 
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如 果 主 控制 流 被 暂停 时 正 处 于 执行 gethostbyname 期 间 ( 壁 如 说 该 函数 已 经 填写 好 host 变 
量 并 即将 返回 )， 而 且 信 号 处 理 函 数 随后 调用 gethostbyname， 那 么 该 host 变 量 将 被 重用 ， 因 
为 该 进程 中 只 存在 该 变量 的 单个 副本 。 这 么 一 来 ， 原 先 由 主 控制 流 计 算出 的 值 被 重 写成 了 由 当 
前 信和 号 处 理 函 数 调用 计算 出 的 值 。 

查看 本 章 讲解 的 名 字 和 地 址 转换 函数 以 及 第 4 章 中 的 inet_XXX 函 数 ， 我 们 就 重 入 问题 提请 

注意 以 下 几 点 。 

e 因 历 史 原因 ，gethostbyname、gethostbyaddqr、getservbyname 和 getservbyport 这 
4 个 函数 是 不 可 重 入 的 ， 因 为 它们 都 返回 指向 同一 个 静态 结构 的 指针 。 

支持 线程 的 一 些 实现 (例如 Solaris 2.x) 同时 提供 这 4 个 函数 的 可 重 入 版 本 ， 它 们 的 
名 字 以 _r 结 尾 ， 我 们 将 在 下 一 节 介绍 它们 。 

支持 线程 的 另 一 些 实现 (例如 HP-UX 10.30 及 以 后 版 本 ) 使 用 线程 特定 数据 (26.5 
节 ) 提供 这 些 函数 的 可 重 入 版 本 。 

e inet_pton 和 inet_ntop 总 是 可 重 入 的 。 

e 因 历 史 原因 ，inet_ntoa 是 不 可 重 入 的 ， 不 过 支持 线程 的 一 些 实现 提供 了 使 用 线程 特定 
数据 的 可 重 入 版 本 。 

e getaddrinfo 可 重 入 的 前 提 是 由 它 调用 的 函数 都 可 重 入 ， 这 就 是 说 ， 它 应 该 调用 可 重 入 
版 本 的 gethostbyname〔 以 解析 主机 名 〉 和 getservbyname (以 解析 服务 名 )。 本 函数 
返回 的 结果 全 部 存放 在 动态 分 配 内 存 空间 的 原因 之 一 就 是 允许 它 可 重 入 。 

. getnameinfo 可 重 入 的 前 提 是 由 它 调用 的 函数 都 可 重 入 ， 这 就 是 说 ， 它 应 该 调用 可 重 入 
版 本 的 gethostbyadar (以 反 向 解析 主机 名 ) 和 getservbyport (以 反 向 解析 服务 名 )。 
它 的 2 个 结果 字符 串 ( 分 别 为 主机 名 和 服务 名 〉 由 调用 者 分 配 存 储 空间 ， 从 而 允许 它 可 
HA. 

errno 变 量 存在 类 似 的 问题 。 这 个 整 型 变量 历来 每 个 进程 各 有 一 个 副本 。 如 果 一 个 进程 执 

行 的 某 个 系统 调用 返回 一 个 错误 ， 该 进程 的 这 个 变量 中 就 被 存 入 一 个 整数 错误 码 。 举 例 来 说 ， 
当 调 用 标准 C 函 数 库 中 名 为 close 的 函数 时 ， 进 程 可 能 执行 类 似 如 下 的 伪 代 码 : 

e 把 系统 调用 的 参数 〈 一 个 整数 描述 符 ) 置 于 一 个 寄存 器 ; 

e 把 一 个 值 置 于 另 一 个 寄存 器 ， 以 指出 待 调 用 的 是 close 系 统 调用 ; 

e 激活 该 系统 调用 〈 用 一 条 特殊 指令 切换 到 内 核 态 ); 

e. 测试 一 个 寄存 器 的 值 以 判定 是 否 发 生 过 某 个 错误 ; 

e 若 没 有 错误 则 执行 ret run(0); 

e 否则 把 另外 某 个 寄存 器 的 值 存 入 errnoi 

e 执行 return(-1) 。 

首先 应 该 注意 车 没有 任何 错误 发 生 则 errno 的 值 不 会 改变 。 因 此 ， 除 非 知道 发 生 了 一 个 错 

ix (通常 由 函数 调用 返回 -1 指示 )， 耕 则 不 应 该 查看 errno 的 值 。 
假设 一 个 程序 先 测试 close 函 数 的 返回 值 , 判定 发 生 了 一 个 错误 后 再 显示 errno 的 值 , HAR 
码 如 下 : 
if (close(fd) < 0) { 
fprintf(stderr,"close error, errno = %d\n", errno) 


exit (1); 
} 


从 close 系 统 调用 返回 时 把 错误 码 存 入 errno 到 稍 后 由 程序 显示 errno 的 值 之 间 存 在 一 个 
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小 的 时 间 窗 口 ， 期 间 同 一 个 进程 内 的 另 一 个 执行 线程 〈 例 如 一 个 信和 号 处 理 函 数 的 某 次 调用 ) 可 
能 改变 了 errno 的 值 。 举 例 来 说 ， 如 果 这 个 信号 处 理 函 数 被 调用 时 主 控制 流 处 于 close 和 
fprintf 之 间 , 而 且 这 个 信号 处 理 函 数 调用 的 另外 某 个 系统 调用 (譬如 write) 也 返回 一 个 错误 ， 
那么 由 write 系统 调用 存放 的 errno 值 将 覆 写 由 close 系 统 调用 存放 的 errno 值 。 

就 信号 处 理 函数 考虑 这 两 个 问题 ， 其 中 gethostbyname 问 题 (返回 一 个 指向 某 个 静态 变量 
的 指针 ) 的 解决 办 法 之 一 是 在 信号 处 理 函 数 中 不 调用 任何 不 可 重 入 的 函数 ，errno 问 题 〈 其 值 
可 被 信号 处 理 函 数 改 变 的 单个 全 局 变量 ) 可 通过 把 信号 处 理 函 数 编写 成 预先 保存 并 事后 恢复 
errno 的 值 加 以 避免 ， 其 代码 如 下 : 

void 

Sig alrm(int signo) 


{ 


int errno_save; 


errno save = errno; /* save its value on entry */ 
if (write( ... ) != nbytes) 
fprintf(stderr, "write error, errno = %d\n", errno); 
errno = errno_save; /* restore its value on return */ 
) 


在 这 段 例子 代码 中 ， 我 们 还 从 信和 号 处 理 函 数 中 调用 了 fprintf 这 个 标准 MO 函数 。 它 引入 了 
另 一 个 重 入 问题 ， 因 为 许多 版 本 的 标准 IO 函数 库 是 不 可 重 入 的 ， 也 就 是 说 我 们 不 应 该 从 信号 处 
理 函 数 中 调用 标准 IO 函数 。 

我 们 将 在 第 26 章 中 重 提 这 个 重 入 问题 ， 并 查看 线程 如 何 处 理 errno 变 量 的 问题 。 下 一 节 介 
绍 主 机 名 转换 函数 的 一 些 可 重 入 版 本 。 


11.19 ”gethostbyname_r 和 gethostbyaddr r H 








有 两 种 方法 可 以 把 诸如 gethostbyname 之 类 不 可 重 入 的 函数 改 为 可 重 入 函数 。 

(1) 把 由 不 可 重 入 函数 填写 并 返回 静态 结构 的 做 法 改 为 由 调用 者 分 配 再 由 可 重 入 函数 填写 
结构 。 这 是 把 不 可 重 入 的 gethostbyname 改 为 可 重 入 的 gethostbyname_r 所 用 的 技巧 。 但 这 种 
方法 比较 复杂 ， 因 为 不 仅 调 用 者 必须 提供 有 待 填写 的 hostent 结 构 ， 而 且 该 结构 还 指向 其 他 信 
息 : 规范 名 字 、 别 名 指针 数组 、 各 个 别名 字符 串 、 地 址 指针 数组 以 及 各 个 地 址 〈 参 见 图 11-2)。 
调用 者 必须 提供 一 个 足以 存放 这 些 额 外 信息 的 大 缓冲 区 以 及 一 个 待 填 写 的 hostent 结 构 ， 所 填 
写 的 内 容 包括 多 个 指向 这 个 大 缓冲 区 的 指针 。 这 人 么 一 来 该 函数 至 少 得 增设 3 个 参数 : 指向 待 填写 
的 hostent 结 构 的 一 个 指针 、 指 向 存放 所 有 其 他 信息 所 用 缓冲 区 的 一 个 指针 以 及 该 缓冲 区 的 大 
小 。 作 为 第 四 个 额外 参数 ， 指 向 用 于 存放 错误 码 的 某 个 整数 变量 的 一 个 指针 也 是 必要 的 ， 因 为 
不 能 再 用 全 局 整数 变量 h_errno。( 全 局 变量 hn_errno 引 起 与 errno 所 引起 的 相同 的 重 入 问题 。》 

getnameinfo 和 inet_ntop 也 使 用 这 种 方法 。 

(2) 由 可 重 入 函数 调用 malloc 以 动态 分 配 内 存 空间 。 这 是 getadadrinfo 使 用 的 技巧 。 这 种 
方法 的 问题 是 调用 该 函数 的 应 用 进程 必须 调用 freeaddqrinfo 释 放 动 态 分 配 的 内 存 空 间 。 如 果 不 
这 么 做 就 会 导致 内 存 空间 泄漏 (memory leak): 进程 每 调用 一 次 动态 分 配 内 存 空间 的 函数 ， 所 
用 内 存量 就 相应 增长 。 如 果 进 程 长 时 间 运 行 〈 网 络 服务 器 的 公共 特性 之 一 )， 那 么 内 存 耗 用 量 就 
随时 间 不 断 增加 。 

现在 讨论 Solaris 2.x 用 于 从 名 字 到 地 址 和 从 地 址 到 名 字 进 行 解析 的 可 重 入 函数 。 
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#include <netdb.h> 


struct hostent *gethostbyname_r(const char *hostname, 
struct hostent *result, 
char *buf, int buflen, int *h errnop); 


struct hostent *gethostbyaddr r(const char *addr, int len, int type, 
struct hostent *result, 
char *buf, int buflen, int *h_errnop); 


HEE: 车 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 





每 个 函数 都 需要 4 个 额外 的 参数 。 其 中 result 参 数 指向 由 调用 者 分 配 并 由 被 调用 函数 填写 的 
hostent 结 构 。 成 功 返 回 时 本 指针 同时 作为 函数 的 返回 值 。 

buf 参 数 指向 由 调用 者 分 配 且 大 小 为 buflen 的 缓冲 区 。 该 缓冲 区 用 于 存放 规范 主机 名 、 别 名 
指针 数组 、 各 个 别名 字符 串 、 地 址 指针 数组 以 及 各 个 实际 地 址 。 由 result 指 向 的 hostent 结 构 中 的 
所 有 指针 都 指向 该 缓冲 区 内 部 。 那 这 个 缓冲 区 要 有 多 大 才 行 呢 ? 不 幸 的 是 ， 就 该 缓冲 区 的 大 小 
而 言 ， 大 多 数 手册 页 面 只 是 含糊 地 说 “该 缓冲 区 必须 大 得 足以 存放 与 hostent 结 构 关 联 的 所 有 
数据 ”。gethostbyname 当 前 的 实现 最 多 能 够 返回 35 个 别名 指针 和 35 个 地 址 指针 , 并 内 部 使 用 一 
个 8192 字 节 的 缓冲 区 存放 这 些 别名 和 地 址 。 因 此 大 小 为 8192 字 节 的 缓冲 区 应 该 足够 了 。 

如 果 出 错 ， 错 误 码 就 通过 h_errnop 指 针 而 不 是 全 局 变量 h_errno 返 回 。 


不 幸 的 是 ， 重 入 问题 比 它 表 面 看 来 更 要 严重 。 首 先 ， 关 于 gethostbyname 和 gethost- 
byadGdr 的 重 入 问题 无 标准 可 循 , POSIX 规 范 声明 这 两 个 函数 不 必 是 可 重 入 的 。Unix 98 只 说 这 
两 个 函数 不 必 是 线程 安全 的 。 

其 次 ， 关 于 _ 函 数 也 没有 标准 可 循 。 本 节 (出 于 作为 例子 目的 ) 展示 的 那 两 个 _r 函 数 由 
Solaris 2.x 提 供 ，Linux 提 供 相 似 的 _r 函 数 ， 但 函数 会 返回 一 个 hostent 结 构 ， 该 结构 是 使 用 
作为 倒数 第 二 个 参数 的 值 -结果 参数 返回 的 。 若 查找 成 功 ， 则 返回 函数 和 h_errno 参 数 的 值 。 
Digital Unix 4.0 和 HP-UX 10.30 同 样 提 供 这 两 个 函数 的 _r 版 本 ， 只 是 参数 不 同 而 已 。 它们 的 
gethostbyname_r 函 数 有 与 Solaris 版 本 同样 的 前 2 个 参数 , 不 过 Solaris 版 本 的 后 3 个 参数 被 前 
者 组 合成 一 个 新 的 hostent_data 结 构 ( 它 必须 由 调用 者 分 配 存 储 空间 ) 指向 该 结构 的 一 个 
指针 构成 本 函数 的 第 三 个 兼 最 后 一 个 参数 .通过 使 用 线程 特定 数据 (26.5 节 ), Digital Unix 4.0 
和 HP-UX 10.30 系 统 中 普通 的 gethostbyname 和 gethostbyadGr 函 数 也 变 得 可 重 入 。Solaris 
2.x 的 _r 函 数 的 开发 历史 参见 [ Maslen 1997 ]. 

最 后 ， 虽 然 gethostbyname 的 可 重 入 版 本 可 以 在 同时 调用 它 的 不 同 线程 之 间 提 供 安全 性 ， 
却 没有 提 及 支撑 它 的 解析 器 函数 的 重 入 性 。 


11.20 ”作废 的 1Pv6 地 址 解析 函数 


在 开发 ITPv6 期 间 ， 用 于 查找 IPv6 地 址 的 API 经 历 了 若干 次 反复 。 这 些 早期 的 API 既 复杂 又 没 
有 足够 的 灵活 性 ， 于 是 在 RFC 2553 [Gilligan et al. 1999] 中 被 淘汰 掉 。RFC 2553 又 引入 了 新 的 
函数 ， 它 们 最 终 在 RFC 3493 [Gilligan et al. 2003] 中 被 简单 地 替换 成 getaaarinfo 和 
getnameinfo。 本 节 简 要 介绍 一 些 早 期 的 API， 以 辅助 转换 已 经 使 用 它们 的 程序 。 


11.20.1 RES_USE_INET6 常 值 
gethostbyname 没 有 可 指定 所 关心 地 址 族 的 参数 (就 像 getaddrinfo 的 hints.ai_family 
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结构 成 员 )， 因 此 这 个 API 的 第 一 个 修订 本 使 用 RES_UsSE_INET6 常 值 ， 使 用 者 必须 以 一 个 私 用 的 
内 部 接口 把 该 常 值 加 到 解析 器 标志 中 。 这 个 API 不 大 容易 移植 ， 因 为 使 用 别 的 内 部 解析 器 接口 
的 系统 不 得 不 模仿 BIND 解 析 器 接口 以 提供 它 。 
启用 RES_USE_INET6 会 使 gethostbyname 首 先 查找 AAAA 记 录 ， 若 找 不 到 任何 AAAA 记 录 
则 接着 查找 A 记 录 。 因 为 hostent 结 构 只 有 一 个 地 址 长 度 字段 , 所 以 gethostbyname 只 能 要 么 返 
回 IPv6 地 址 ， 要 么 返回 IPv4 地 址 ， 而 不 能 同时 返回 这 两 种 地 址 。 
启用 RES_USE_INET6 还 会 使 gethostbyname2 以 IPv4 映 射 的 IPv6 地 址 的 形式 返回 IPv4 地 址 。 


11.20.2 gethostbyname2 函数 
gethostbyname2 函 数 给 gethostbyname 增 设 了 一 个 地 址 族 参 数 。 





#include «sys/socket.h» 
#include «netdb.h» 


struct hostent *gethostbyname2(const char *name, int af); 


返回 ， 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 设置 h_errno 


当 af 参 数 为 AF_INET 时 ，gethostbyname2 的 行为 与 gethostbyname 一 样 ， 即 查找 并 返回 
IPv4 地 址 。 当 a/ 参 数 为 AFE_INET6 时 ，gethostbyname2 只 查找 AAAA 记 录 并 返回 IPv6 地 址 。 


11.20.3 getipnodebyname 函数 


RFC 2553 [Gilligan et al. 1999] 因为 RES_USE_INET6 标 志 的 全 局 特性 以 及 对 返回 信息 进行 
更 多 控制 的 愿望 而 废除 了 RES_USE_INET6 和 gethostbyname2。 为 了 解决 其 中 一 些 问 题 , 它 同 时 
S| AgetipnodebynamerK Jt . 





#include «sys/socket.h» 
#include <netdb.h> 


struct hostent *getipnodebyname(const char *name, int af, 
int flags, int *error num); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 且 没 置 error_num 
本 函数 返回 的 指针 指向 的 是 我 们 随 gethostbyname 函 数 讲 解 过 的 hostent 结 构 。af 和 flags 


这 两 个 参数 直接 映射 到 getaddrinfo 的 hints.ai_family 和 hints.ai_flags 参 数 ,为 了 线程 安 
全 起 见 ， 返 回 值 是 动态 分 配 的 ， 因 而 必须 使 用 freehostent 函 数 释放 。 








#include <netdb.h> 





void freehostent (struct hostent *ptr); 








getipnodebyname 和 与 之 匹配 的 getipnodebyaddr 函 数 被 RFC 3493 [Gilligan et al. 2003 ] 
347| 废除 ， 并 代 之 以 getaddrinfo 和 getnameinfo 了 函数。 


1121 ”其 他 网 络 相关 信息 


我 们 在 本 章 中 一 直 关 注 主机 名 和 耳 地 址 以 及 服务 名 和 端口 号 。 然 而 我 们 的 视野 可 以 更 广阔 
些 ， 应 用 进程 可 能 想 要 查找 四 类 与 网 络 相关 的 信息 : 主机 、 网 络 、 协 议和 服务 。 大 多 数 查找 针 
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对 的 是 主机 (gethostbyname 和 gethostbyaddr), 一 小 部 分 查找 针对 的 是 服务 (getservbyname 
和 getservbyport )， 更 小 一 部 分 查找 针对 的 是 网 络 和 协议 。 

所 有 四 类 信息 都 可 以 存放 在 一 个 文件 中 ， 每 类 信息 各 定义 有 三 个 访问 函数 : 

(1) 函数 getXXXent 读 出 文件 中 的 下 一 个 表 项 ， 必 要 的 话 首 先 打开 文件 ; 

(2) 函数 setXXXent 打 开 〈 如 果 尚 未 打开 的 话 ) 并 回 绕 文件 ; 

(3) 函数 enGXXXent 关 闭 文件 。 

每 类 信息 都 定义 了 各 自 的 结构 ， 包 括 hostent、netent、protoent 和 servent。 这 些 定义 
通过 包含 头 文件 <netdb.h> 提 供 。 

除了 用 于 顺序 处 理 文件 的 get 、set 和 end 这 三 个 函数 外 ， 每 类 信息 还 提供 一 些 键 值 查找 
(keyed loopup) 函数 。 这 些 函 数 顺 序 遍 历 整个 文件 (通过 调用 getXXXent 函数 读 出 每 一 行 ), 但 
是 不 把 每 一 行 都 返回 给 调用 者 ， 而 是 寻找 与 某 个 参数 匹配 的 一 个 表 项 。 这 些 键 值 查找 函数 具有 
形 如 getXXXbyYYY 的 名 字 。 举 例 来 说 , 针对 主机 信息 的 两 个 键 值 查找 函数 是 gethostbyname( 查 
找 匹 配 某 个 主机 名 的 表 项 》 和 gethostbyaddr (查找 匹配 某 个 也 地址 的 表 项 )。 图 11-21 汇 总 了 
这 些 信 息 。 


/etc/hosts hostent gethostbyaddr, , gethostbyname 
/etc/networks netent getnetbyaddr, getnetbynane 
/etc/protocols protoent getprotobyname, getprotobynumber 





/etc/services servent getservbyname,  getservbyport 


图 11-21 四 类 网 络 相关 信息 


在 使 用 DNS 的 前 提 下 如 何 应 用 这 些 函 数 呢 ? 首先 ， 只 有 主机 和 网 络 信息 可 通过 DNS 获取 ， 
协议 和 服务 信息 总 是 从 相应 的 文件 中 读 取 。 我 们 早先 在 本 章 中 〈 随 图 11-1) 提 到 过 ， 不 同 的 实 
现 有 不 同 的 方法 供 系 统管 理 员 指 定 是 使 用 DNS 还 是 使 用 文件 来 查找 主机 和 网 络 信 息 。 

其 次 ， 如 果 使 用 DNS 查 找 主机 和 网 络 信 息 ， 那 么 只 有 键 值 查找 函数 才 有 意义 。 举 例 来 说 ， 
你 不 能 使 用 gethostent 并 期 待 顺序 遍历 DNS 中 的 所 有 表 项 。 如 果 调 用 gethostent， 那 么 它 仅 
仅 读 取 /etc/hosts 文 件 并 避免 访问 DNS。 

虽然 网 络 信息 可 以 做 成 通过 DNS 能 够 访问 到 ， 但 是 很 少 有 人 这 么 做 。[ Albitz and Liu 
2001] 讲述 了 这 个 特性 。 典 型 的 做 法 反而 是 : 系统 管理 员 创 建 并 维护 一 个 /etc/networks 文 
件 ， 网 络 信息 通过 它 而 不 是 通过 DNS 获取 。 如 果 存 在 这 个 文件 ， 指 定 -i 选 项 的 netstat 程 序 
就 使 用 它 显 示 每 个 网 络 的 名 字 。 然 而 无 类 寻 址 (AAD ) 使 得 这 些 函 数 几 近 无 用 ， 而 且 它们 又 
不 支持 IPv6， 因 此 新 的 网 络 应 用 应 该 避免 使 用 网 络 名 字 。 


1122 jd ———————— Aw. Of 





应 用 程序 用 来 把 主机 名 转换 成 耳 地 址 或 做 相反 转换 的 一 组 函数 称 为 解析 器 。 
gethostbyname 和 gethostbyadqdr 是 解析 器 曾 沼 用 的 入 口 点 。 随 着 向 IPv6 和 线程 化 编程 模型 的 
转移 ，getaddqrinfo 和 getnameinfo 显 得 更 为 有 用 ， 因 为 它们 既 能 解析 IPv6 地 址 ， 又 符合 线程 
安全 调用 约定 。 

处 理 服 务 名 和 端口 号 的 常用 函数 是 get servbyname， 它 接受 一 个 服务 名 作为 参数 ， 并 返回 

-个 包含 相应 端口 号 的 结构 。 这 种 映射 关系 通常 包含 在 一 个 文本 文件 中 。 还 有 用 于 把 协议 名 映 
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射 成 协议 号 以 及 把 网 络 名 映射 成 网 络 号 的 函数 ， 不 过 很 少 使 用 。 

我 们 没有 提 到 的 另 一 种 可 选 方法 是 : 直接 调用 解析 器 函数 ， 以 代替 使 用 gethostbyname 和 
gethostbyaddr。 如 此 直接 应 用 DNS 的 程序 之 一 是 sendmail， 因 为 它 需 要 搜索 MX 资源 记录 ， 
这 是 gethostbyXXX 函 数 无 法 做 到 的 。 解 析 器 函数 都 有 以 res_ 开 头 的 名 字 ，res_init 函 数 就 是 
一 个 例子 。[Albitz and Liu 2001] 第 15 章 讲述 了 这 些 函 数 ， 并 有 调用 它们 的 一 个 例子 程序 ， 键 入 
"man resolver” 应 该 得 到 这 些 函 数 的 手册 页 面 。 

getaddrinfo 是 一 个 非常 有 用 的 函数 ， 它 允许 我 们 编写 协议 无 关 的 代码 。 然 而 直接 调用 它 
要 花 多 个 步 又， 而且 对 于 不 同 的 情形 仍 有 反复 出 现 的 细节 需要 处 理 : 如 遍历 所 有 返回 的 结构 ， 
忽略 socket 返 回 的 错误 ， 为 TCP 服 务 器 设置 so_REUSEADDR 套 接 字 选项 ， 等 等 。 我 们 编写 了 5 个 
访问 getaddrinfo 的 接口 函数 tcp_connect、tcp_listen、udp_client、udp_connect、 
udp_server， 以 简化 所 有 这 些 细节 。 我 们 通过 编写 TCP 上 或 UDP 上 时 间 获 取 客 户 和 服务 器 程序 
的 协议 无 关 版 本 展示 了 这 些 函 数 的 用 法 。 

gethostbyname 和 gethostbyaddr 通 常 也 是 不 可 重 入 的 函数 。 这 两 个 函数 共享 一 个 静态 的 
结果 结构 ， 都 返回 指向 该 结构 的 一 个 指针 。 到 第 26 章 介绍 线程 时 我 们 还 会 遇 到 并 讨论 重 入 问题 。 
我 们 介绍 了 一 些 厂商 提供 的 这 两 个 函数 的 _r 版 本 。 它 们 提供 了 一 种 解决 方法 ， 但 是 需要 对 调用 
这 些 函 数 的 所 有 应 用 程序 加 以 修改 。 


11.1 修改 图 11-3 中 的 程序 ， 为 每 个 返回 的 地 址 调用 gethostbyaddr， 然 后 显示 由 它 返 回 的 h_name。 首 
先 指 定 一 个 只 有 单个 IP 地 址 的 主机 名 运行 本 程序 , 然后 指定 一 个 有 多 个 IP 地 址 的 主机 名 运行 本 程序 ， 
将 会 发 生 什么 ? 

11.2 修复 上 个 习题 中 出 现 的 问题 。 

1L3 ”将 服务 名 指定 为 chargen， 运 行 图 11-4 中 的 程序 。 

11.4. ”指定 一 个 点 分 十 进 制 数 串 格式 的 人 地址 作为 主机 名 运行 图 11-4 中 的 程序 。 你 的 解析 器 允许 这 么 做 
mj? 把 图 11-4 中 的 程序 改 为 允许 把 点 分 十 进 制 数 串 格式 的 IP 地 址 作为 主机 名 ， 把 十 进 制 数 串 格式 的 
端口 号 作为 服务 名 。 在 测试 主机 名 参数 是 一 个 点 分 十 进 制 数 串 还 是 一 个 主机 名 字符 串 时 ， 应 该 如 何 
编排 这 两 个 测试 的 顺序 ? 

11.5 修改 图 11-4 中 的 程序 ， 使 得 它 对 于 IPv4 和 IPv6 都 能 工作 。 

11.6 修改 图 11-4 中 的 程序 ， 使 得 它 反 向 查找 DNS， 然 后 比较 返回 的 耳 地址 和 目的 主机 的 所 有 IP 地 址 。 也 
就 是 说 ， 先 用 由 zecvfrom 返 回 的 耳 地 址 调用 gethostbyaddr， 后 跟 gethostbyname 调 用 以 找 出 目 
的 主机 的 所 有 IP 地 址 。 

11.7 在 图 11-12 中 ,调用 者 必须 传递 一 个 整数 指针 以 获取 协议 地 址 的 大 小 。 如 果 调 用 者 没有 这 么 做 (也 就 
是 作为 最 后 一 个 参数 传递 的 是 一 个 空 指针 )， 那 么 它 怎 样 才 能 取得 协议 地 址 真正 的 大 小 呢 ? 

11.8 修改 图 11-14 中 的 程序 ， 改 用 getnameinfo 代 替 sock_ntop。 应 该 传递 给 getnameinfo 哪 些 标志 ? 

11.9 在 7.5 节 我 们 随 So_REUSEADDR 套 接 字 选项 讨论 过 端口 资 用 问题 。 为 了 弄 清 它 的 工作 机 理 ， 我 们 以 图 
11-19 为 源 程序 构造 一 个 协议 无 关 的 UDP 时 间 获 取 服 务 器 程序 。 在 一 个 窗口 中 启动 该 服务 器 的 一 个 实 
例 ， 给 它 捆绑 通 配 地 址 和 某 个 由 你 选择 的 端口 。 在 另 一 个 窗口 中 启动 一 个 客户 ， 并 验证 服务 器 正在 
处 理 客户 请 求 〈 注 意 服务 器 的 princf 调 用 )。 接 着 在 第 三 个 窗口 中 启动 服务 器 的 另 一 个 实例 ， 这 次 
给 它 捆绑 该 主机 的 一 个 单 播 地 址 以 及 与 第 一 个 服务 器 相同 的 端口 。 你 马上 碰 到 的 是 什么 问题 ? 修复 
这 个 问题 后 重新 启动 第 二 个 服务 器 。 启 动 一 个 客户 ， 发 送 一 个 数据 报 ， 验 证 第 二 个 服务 器 已 盗用 了 
第 一 个 服务 器 的 端口 。 要 是 可 能 的 话 ， 使 用 与 启动 第 一 个 服务 器 所 用 的 登录 账号 不 同 的 另 一 个 账号 
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再 次 启动 第 二 个 服务 器 ， 看 能 和 否 继续 成 功 盗 用。 有 些 厂 商 只 允许 用 户 ID 相同 的 进程 再 次 捆绑 之 前 某 
个 进程 已 绑 定 的 端口 。 

11.10 在 2.12 节 末尾 我 们 展示 了 两 个 relpet 例 子 : 一 个 连接 到 时 间 获 取 服 务 器 , 另 一 个 连接 到 回 射 服务 器 。 
已 知客 户 要 经 历 gethostbyname 和 connect 这 两 个 步骤 ， 你 能 判定 它 的 哪些 输出 行 对 应 哪个 步 又 
n3? 

11.11. 如 果 找 不 到 给 定 IP 地 址 对 应 的 主机 名 ，gethostbyadar 可 能 就 得 花 很 长 时 间 (最 长 80s) 才能 返回 

-个 错误 。 编 写 一 个 新 的 名 为 get nameinfo_timeo 的 函数 ， 它 有 一 个 额外 的 整数 参数 用 于 指定 等 
待 应 答 的 最 大 秒 数 。 如 果 发 生 超 时 并 且 没 有 设置 NI_NaMEREOD 标 志 ， 那 就 调用 inet_ntop 返 回 一 
个 地 址 串 。 
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12.4 概述 ^ 


在 未 来 数 年 内 ， 因 特 网 也 许 会 逐渐 地 从 IPv4 过 渡 到 IPv6。 在 这 个 过 渡 阶 段 ， 基 于 IPv4 的 现 
有 应 用 程序 能 够 和 基于 IPv6 的 全 新 应 用 程序 继续 协同 工作 显得 非常 重要 。 举 例 来 说 ， 厂 商 不 应 
该 只 提供 仅 能 与 IPv6 telnet 服 务 器 程序 协同 工作 的 telnet 客 户 程序 ， 而 应 该 既 提 供 能 与 IPv4 
服务 器 程序 协同 工作 的 客户 程序 ， 又 提供 能 与 IPv6 服 务 器 程序 协同 工作 的 客户 程序 。 更 理想 的 
情形 是 ， 一 个 IPv6 的 telnet 客 户 程序 既 能 与 IPv4 服 务 器 程序 协同 工作 ， 又 能 与 IPv6 服 务 器 程序 
协同 工作 ， 相 应 地 一 个 IPv6 的 telnet 服 务 器 程序 既 能 与 IPv4 客 户 程序 协同 工作 ， 又 能 与 IPv6 客 
户 程序 协同 工作 。 我 们 将 通过 本 章 了 解 这 是 如 何 实现 的 。 

我 们 贯穿 本 章 假 设 主机 都 运行 着 双 栈 〈dual stacks)， 意 指 一 个 IPv4 协 议 栈 和 一 个 IPv6 协 议 
栈 。 我 们 在 图 2-1 中 展示 的 例子 就 是 一 个 双 栈 主机 。 在 向 IPv6 转 换 的 漫长 过 渡 期 内 ， 主 机 和 路 由 
器 也 许 会 如 此 运行 许多 年 。 到 了 某 个 时 间 点 后 ， 许 多 系统 可 以 关闭 它们 的 IPv4 协 议 栈 ， 然 而 只 
有 了 时间 才 能 告诉 我 们 这 种 情况 何 时 (以 及 是 否 ) 会 发 生 。 

在 本 章 中 ， 我 们 将 讨论 IPv4 应 用 进程 和 IPv6 应 用 进程 如 何 才能 彼此 通信 。 使 用 IPv4 或 IPv6 
的 客户 或 服务 器 之 间 存 在 如 图 12-1 所 示 的 四 种 组 合 。 


[ | rmm | ^ emsm | 
IPv4A P: 几乎 全 部 现 有 客户 见 12.2 节 
和 服务 器 程序 
IPv6 客 户 见 12.3 节 对 于 大 多 数 现 有 客户 和 服务 器 程序 
的 简单 修改 〈 例 如 从 图 1-5 至 图 1-6) 
图 12-1 ”使 用 IPv4 或 IPv6 的 客户 与 服务 器 的 组 合 


对 于 客户 和 服务 器 使 用 相同 协议 的 那 两 种 情形 我 们 不 再 过 多 讨论 。 我 们 感 兴趣 的 是 客户 和 
服务 器 使 用 不 同 协议 的 那 两 种 情形 。 


12.2 IPv4 客户 与 1Pv6 服务 器 


双 栈 主机 的 一 个 基本 特性 是 其 上 的 IPv6 服 务 器 既 能 处 理 IPv4 客 户 ， 又 能 处 理 IPv6 客 户 。 这 
是 通过 使 用 IPv4 映 射 的 Pv6 地 址 实现 的 (图 A-10)。 图 12-2 展 示 了 这 样 的 一 个 例子 。 

左 侧 有 一 个 IPv4 客 户 和 一 个 IPv6 客 户 。 右 侧 的 服务 器 其 程序 使 用 [Pv6 编 写 。 该 服务 器 创建 
了 一 个 绑 定 在 IPv6 通 配 地 址 和 TCP 端 口 9999 上 的 IPv6 监 听 TCP 套 接 字 。 

我 们 假设 客户 和 服务 器 主机 处 于 同一 个 以 太 网 。 当 然 它们 也 可 以 通过 路 由 器 连接 ， 只 要 所 
有 路 由 器 都 同时 支持 IPv4 和 IPv6， 不 过 这 对 于 我 们 的 讨论 并 没有 任何 影响 。B.3 节 将 讨论 另外 一 
种 情况 ，IPv6 的 客户 和 服务 器 主机 之 间 通 过 只 支持 IPv4 的 路 由 器 连接 。 
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IPv6 监 听 套 接 字 
绑 定 在 .0::0， 端 口 9999 





5f1b:df00:ce3e:e200: 
20:800:2b37:6426 


i 以 太 网 | IPva | TCP 、 E--3 
---> as | 首部 | 首部 | TOS p- -a | 
1 
1 
| 
1 


t 

1 

| | 

| 类 型 目的 端口 
i 0800 9999 

! 


类 型 目的 端口 
86dd 9999 


图 12-2 ” 双 栈 主机 上 的 IPv6 服 务 器 为 IJPv4 和 IPv6 客 户 服务 

我 们 假设 这 两 个 客户 都 发 送 SYN 分 节 以 建立 与 服务 器 的 连接 。IPv4 客 户主 机 在 一 个 IPv4 数 
据 报 中 载 送 SYN，IPv6 客 户主 机 在 一 个 IPv6 数 据 报 中 载 送 SYN。 来 自 IPv4 客 户 的 TCP 分 节 在 以 太 
网 线 上 表现 为 一 个 以 太 网 首部 后 跟 一 个 IPv4 首 部 、 一 个 TCP 首 部 以 及 TCP 数 据 。 以 太 网 首部 中 包 
含 的 类 型 字段 值 为 0x0800， 它 把 本 以 太 网 帧 标识 为 一 个 IPv4 帧 。TCP 首 部 中 包含 的 目的 端口 为 
9999。〈 这 些 首 部 的 格式 和 内 容 在 附录 A 中 详细 讲解 .) IPv4 首 部 中 的 包含 的 目的 中 地 址 为 
206.62.226.42。 

来 自 IPv6 客 户 的 TCP 分 节 在 以 太 网 线 上 表现 为 一 个 以 太 网 首部 后 跟 一 个 IPv6 首 部 、 一 个 TCP 
首部 以 及 TCP 数 据 。 以 太 网 首部 中 包含 的 类 型 字段 值 为 0x86ad, 它 把 本 以 太 网 帧 标识 为 一 个 IPv6 
帧 。 这 个 TCP 首 部 和 IPv4 数 据 报 中 的 TCP 首 部 格式 完全 一 样 ， 也 包含 值 为 9999 的 目的 端口 。IPv6 
首部 中 包含 的 目的 IP 地 址 为 5fib:Gf00:ce3e:e200:20:800:2b37:6426。 

接收 数据 链 路 通过 查看 以 太 网 类 型 字段 把 每 个 帧 传递 给 相应 的 人 P 模 块 。IPv4 模 块 结合 其 上 
的 TCP 模 块 检测 到 IPv4 数 据 报 的 目的 端口 对 应 一 个 IPv6 套 接 字 , 于 是 把 该 数据 报 IPv4 首 部 中 的 源 
IPv4 地 址 转换 成 一 个 等 价 的 IPv4 映 射 的 IPv6 地 址 。 当 accept 系统 调用 把 这 个 已 经 接受 的 IPv4 客 
户 连接 返回 给 服务 器 进程 时 ， 这 个 映射 后 的 地 址 将 作为 客户 的 IPv6 地 址 返回 到 服务 器 的 IPv6 套 
接 字 。 该 连接 上 其 余 的 数据 报 同 样 都 是 IPv4 数 据 报 。 

当 accept 系 统 调用 把 接受 的 IPv6 客 户 连接 返回 给 服务 器 进程 时 ， 该 客户 的 IPv6 地 址 就 是 出 
现在 IPv6 首 部 中 的 源 地 址 ， 未 做 任何 改动 。 该 连接 上 其 余 的 数据 报 都 是 IPv6 数 据 报 。 

我 们 可 以 把 允许 一 个 IPv4 的 TCP 客 户 和 一 个 IPv6 的 TCP 服 务 器 进行 通信 的 步骤 总 结 如 下 。 

(1) IPv6 服 务 器 启动 后 创建 一 个 IPv6 的 监听 套 接 字 ， 我 们 假定 服务 器 把 通 配 地 址 捆 绕 到 该 套 
接 字 。 

(2) IPv4 客 户 调用 gethostbyname 找 到 服务 器 主机 的 一 个 A 记 录 。 服 务 器 主机 既 有 一 个 A 记 
录 ， 又 有 一 个 AAAA 记 录 ， 因 为 它 同时 支持 IPv4 和 IPv6， 不 过 IPv4 客 户 需要 的 只 是 一 个 A 记 录 。 
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(3) 客户 调用 connect， 导 致 客户 主机 发 送 一 个 IPv4 SYN 到 服务 器 主机 。 

(4) 服务 器 主机 接收 这 个 目的 地 为 IPv6 监 听 套 接 字 的 IPv4 SYN, 设置 一 个 标志 指示 本 连接 应 
使 用 IPv4 映 射 的 IPv6 地 址 ， 然 后 响应 以 一 个 ITPv4 SYN/ACK。 该 连接 建立 后 ， 由 accept 返 回 给 服 
务 器 的 地 址 就 是 这 个 [Pv4 映 射 的 IPv6 地 址 。 

(5) 当 服 务 器 主机 往 这 个 IPv4 映 射 的 IPv6 地 址 发 送 TCP 分 节 时 ， 其 人 P 栈 产生 目的 地 址 为 所 映 
射 IPv4 地 址 的 IPv4 载 送 数据 报 。 因 此 ， 客 户 和 服务 器 之 间 的 所 有 通信 都 使 用 IPv4 的 载 送 数据 报 。 

(6) 除非 服务 器 显 式 检 查 这 个 IPv6 地 址 是 不 是 一 个 IPv4 映 射 的 IPv6 地 址 (使 用 将 在 12.4 节 介 
绍 的 TIN6_TS_ADDR_V4MAPPED 宏 )， 否 则 它 永 远 不 知道 自己 是 在 与 一 个 IPv4 客 户 通 信 。 这 个 细节 
由 双 协 议 栈 处 理 。 同 样 地 ，IPv4 客 户 也 不 知道 自己 是 在 与 一 个 IPv6 服 务 器 通信 。 

上 述 情 形 的 一 个 支撑 性 假设 是 ， 双 栈 服务 器 主机 既 有 一 个 IPv4 地 址 ， 又 有 一 个 IPv6 地 址 。 
在 所 有 IPv4 地 址 耗 尽 之 前 ， 这 个 假设 没有 问题 。 

IPv6 的 UDP 服 务 器 也 有 类 似 的 情形 , 不 过 每 个 数据 报 的 地 址 格式 可 能 有 所 变动 。 举例 来 说 ， 
如 果 IPv6 服 务 器 收 到 来 自 某 个 IPv4 客 户 的 一 个 数据 报 ， 由 recvfrom 返 回 的 地 址 将 是 该 客户 的 
IPv4 映 射 的 IPv6 地 址 。 服务器 以 这 个 IPv4 映 射 的 IPv6 地 址 调用 sendto 给 出 对 本 客户 请 求 的 响应 。 
这 个 地 址 格式 告知 内 核 向 客户 发 送 一 个 IPv4 数 据 报 。 然 而 服务 器 收 到 的 下 一 个 数据 报 可 能 是 一 
个 IPv6 数 据 报 ，recvfrom 将 返回 其 客户 的 IPv6 地 址 。 如 果 服 务 器 给 出 响应 ， 那 么 内 核 将 产生 一 
个 IPv6 数 据 报 。 

图 12-3 汇 总 了 在 一 个 双 栈 主机 上 收 到 的 IPv4 数 据 报 或 [Pv6 数 据 报 如 何 根 据 接收 套 接 字 的 类 
型 (TCP 或 UDP) 进行 处 理 的 流程 。 








AF_INET AF_INET 
1Pv4 套 接 字 。 —SOCK STREAM SOCK_DGRAM 
4 sockaddr in sockaddr_in 
AF_INET6 AF_INET6 
1Pv6 套 接 字 SOCK STREAM SOCK_DGRAM 
Sockaddr in6 Sockaddr, in6 


IPy4 数 据 报 IPv6 数 据 报 
图 12-3 ”根据 接收 套 接 字 类 型 处 理 收 到 的 IPv4 数 据 报 或 [Pv6 数 据 报 


e 如 果 收 到 一 个 目的 地 为 菜 个 IPv4 套 接 字 的 IPv4 数 据 报 ， 那 么 无 需 任何 特殊 处 理 。 它 们 在 
图 中 是 标 为 “IPv4” 的 那 两 个 箭头 : 一 个 到 TCP， 一 个 到 UDP。 客 户 和 服务 器 之 间 交 换 
的 是 ITPv4 数 据 报 。 
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e 如 果 收 到 一 个 目的 地 为 某 个 IPv6 套 接 字 的 IPv6 数 据 报 ， 那 么 无 需 任 何 特殊 处 理 。 它 们 在 
图 中 是 标 为 “IPv6” 的 那 两 个 箭头 : 一 个 到 TCP， 一 个 到 UDP。 客 户 和 服务 器 之 间 交 换 
的 是 IPv6 数 据 报 。 

e 如 果 收 到 一 个 目的 地 为 某 个 IPv6 套 接 字 的 IPv4 数 据 报 ， 那 么 内 核 把 与 该 数据 报 的 源 IPv4 
地 址 对 应 的 IPv4 映 射 的 IPv6 地 址 作为 由 accept (TCP) 或 recvfrom (UDP) 返回 的 对 端 
IPv6 地 址 。 它 们 在 图 中 是 两 个 虚线 第 头 。 这 样 的 映射 是 可 行 的 ， 因 为 任何 一 个 IPv4 地 址 
总 能 表示 成 一 个 IPv6 地 址 。 客 户 和 服务 器 之 间 交 换 的 是 IPv4 数 据 报 。 

e 上 一 点 的 相反 面 却 不 成 立 : 一 般 说 来 ， 一 个 IPv6 地 址 无 法 表示 成 一 个 PPv4 地 址 ;因此 图 
中 没有 从 IPv6 协 议 框 到 两 个 IPv4 套 接 字 的 箭头 。 

大 多 数 双 栈 主机 在 处 理 监听 套 接 字 时 应 使 用 以 下 规则 。 

(1) IPv4 监 听 套 接 字 只 能 接受 来 自 IPv4 客 户 的 外 来 连接 。 

(2) 如 果 服 务 器 有 一 个 绑 定 了 通 配 地 址 的 IPv6 监 听 套 接 字 ， 而 且 该 套 接 字 未 设置 TPV6_V6ONLY 
套 接 字 选 项 (7.8 节 )， 那 么 该 套 接 字 既 能 接受 来 自 IPv4 客 户 的 外 来 连接 ， 又 能 接受 来 自 IPv6 客 户 
的 外 来 连接 。 对 于 来 自 IPv4 客 户 的 连接 而 言 ， 其 服务 器 端的 本 地 地 址 将 是 与 某 个 本 地 IPv4 地 址 
对 应 的 IPv4 映 射 的 IPv6 地 址 。 

(3) 如 果 服 务 器 有 一 个 IPv6 监 听 套 接 字 ， 而 且 绑 定 在 其 上 的 是 除 IPv4 映 射 的 IPv6 地 址 之 外 的 
某 个 非 通 配 IPv6 地 址 ， 或 者 绑 定 在 其 上 的 是 通 配 地 址 ， 不 过 还 设置 了 ITPV6_V6cNLY 套 接 字 选 项 
(7.8 节 )， 那 么 该 套 接 字 只 能 接受 来 自 Pv6 客 户 的 外 来 连接 。 


12.3 IPV6 客户 与 IPv4 服务 器 。 


我 们 现在 对 换 一 下 上 一 节 例 子 中 的 客户 和 服务 器 使 用 的 协议 。 首 先 考 虑 运行 在 一 个 双 栈 主 
机 上 的 一 个 IPv6 的 TCP 客 户 。 
(1) 一 个 IPv4 服 务 器 在 只 支持 IPv4 的 一 个 主机 上 启动 后 创建 一 个 IPv4 的 监听 套 接 字 。 
(2) IPv6 客 户 启动 后 调用 getaddrinfo 单 纯 查 找 IPv6 地 址 (因为 它 请 求 的 是 AF_INET6 地 址 
族 ， 而 且 在 hints 结 构 中 设置 了 AI_V4MAPPED 标 志 )。 既 然 只 支持 IPv4 的 那个 服务 器 主机 只 有 A 
记录 ， 我 们 从 图 11-8 看 到 返回 给 客户 的 是 一 个 IPv4 映 射 的 IPv6 地 址 。 
(3) IPv6 客 户 在 作为 函数 参数 的 IPv6 套 接 字 地 址 结构 中 设置 这 个 IPv4 映 射 的 IPv6 地 址 后 调用 
connect。 内 核 检 测 到 这 个 映射 地 址 后 自动 发 送 一 个 IPv4 SYN 到 服务 器 。 
(4) 服务 器 响应 以 一 个 IPv4 SYN/ACK， 连 接 于 是 通过 使 用 IPv4 数 据 报 建立 。 
我 们 可 以 用 图 12-4 汇 总 上 述 通信 步骤 。 
e 如 果 一 个 IPv4 的 TCP 客 户 指 定 一 个 IPv4 地 址 以 调用 connect, 或 者 一 个 IPv4 的 UDP 客户 指 
定 一 个 IPv4 地 址 以 调用 sendto， 那 么 无 需 任何 特殊 人 处理。 它们 在 图 中 是 标 为 “IPv4” 的 
那 两 个 箭头 。 
e 如 果 一 个 IPv6 的 TCP 客 户 指定 一 个 IPv6 地 址 以 调用 connect, 或 者 一 个 IPv6 的 UDP 客户 指 
定 一 个 IPv6 地 址 以 调用 senaco， 那 么 无 需 任 何 特殊 处 理 。 它 们 在 图 中 是 标 为 “IPv6” 的 
那 两 个 箭头 。 
e. 如 果 一 个 IPv6 的 TCP 客 户 指定 一 个 IPv4 了 映射 的 ITPv6 地 址 以 调用 connect， 或 者 一 个 IPv6 的 
UDP 客户 指定 一 个 IPv4 映 射 的 IPv6 地 址 以 调用 senato， 那 么 内 核 检测 到 这 个 映射 地 址 后 
改 为 发 送 一 个 IPv4 数 据 报 而 不 是 IPv6 数 据 报 。 它 们 在 图 中 是 两 个 虚线 箭头 。 
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IPv4 数 据 报 IPv6 数 据 报 
图 12-4 ”根据 地 址 类 型 和 套 接 字 类 型 处 理 客户 请 求 


e 不 论调 用 connect 还 是 调用 sendto，IPv4 客 户 都 不 能 指定 一 个 IPv6 地 址 ， 因 为 16 个 字 节 
的 IPv6 地 址 超出 了 IPv4 的 sockaaar_in 结 构 中 的 in_adaqr 成 员 结构 的 4 字 节 长 度 。 因 此 图 

中 没有 从 IPv4 套 接 字 到 IPv6 协 议 框 的 箭头 。 
上 一 节 讨 论 的 IPv4 数 据 报到 达 某 个 IPv6 套 接 字 的 情形 中 ， 内 核 把 收 到 的 IPv4 地 址 转换 成 
IPv4 映 射 的 IPv6 地 址 ， 并 通过 accept 或 recvfrom 把 映射 地 址 透明 地 返回 给 应 用 进程 。 本 节 讨 论 
的 通过 某 个 IPv6 套 接 字 发 送 IPv4 数 据 报 的 情形 中 , 从 IPv4 地 址 到 IPv4 映 射 的 IPv6 地 址 之 间 的 转换 
却 由 解析 器 根据 图 11-8 中 的 规则 完成 ， 映 射 地 址 随后 由 应 用 进程 透明 地 传递 给 connect 或 


sendto. 


对 互 操作 性 的 总 结 
图 12-5 汇 总 了 本 节 和 上 一 节 的 内 容 ， 同 时 给 出 了 客户 和 服务 器 的 各 种 组 合 。 


| IPv6 服 务 器 IPv6 单 | IPv4 服 务 器 双 栈 主 | IPv6 服 务 器 双 栈 主 
REH (HEA) 栈 主机 ( 纯 AAAA) | 机 (A 和 AAAA)》 机 (A 和 AAAA) 
IPv4 客 户 ，IPv4 单 栈 主机 IPv4 GO IPv4 IPv4 

Ipsi. RUE ma a | me | m —] 


IPv6 客 户 ， 双 栈 主 机 IPvé | — xo Do EIC 7) 
图 12-5 IPv4 和 IJIPv6 客 户 与 服务 器 互 操作 性 总 结 

图 中 标 为 “IPv4” 或 “IPv6” 的 栏目 表示 相应 组 合 有 效 ， 并 指出 了 实际 使 用 的 协议 ， 标 为 

“(no)” 的 栏目 表示 相应 组 合 无 效 。 最 后 一 行 第 三 列 标 了 星 号 ,因为 该 栏目 的 互 操作 性 取决 于 客 

户 选择 的 地 址 。 如 果 选 择 AAAA 记 录 从 而 发 送 IPv6 数 据 报 , 那 就 不 能 工作 。 然而 如 果 选 择 A 记 录 ， 
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而 这 个 A 记录 实际 作为 一 个 IPv4 映 射 的 IPv6 地 址 返回 给 客户 ， 使 得 客户 发 送 IPv4 数 据 报 ， 那 就 能 
够 工作 。 通 过 如 图 11-4 所 示 在 一 个 循环 中 裔 试 由 getaddrinfo 返 回 的 所 有 地 址 ， 可 确保 试用 这 
个 IPv4 映 射 的 IPv6 地 址 。 

尽管 从 图 示 表 格 看 有 四 分 之 一 强 的 组 合 不 能 互 操作 , 然而 在 可 预见 将 来 的 现实 世界 中 , IPv6 
的 多 数 实现 将 运行 在 双 栈 主机 上 ， 因 而 不 是 IPv6 单 栈 实现 。 如 果 我 们 因此 删 去 表 中 的 第 二 行 和 
第 二 列 ， 那 么 所 有 标 为 “(no)” 的 栏目 都 消失 了 ， 剩 下 的 唯一 问题 是 标 了 星 号 的 栏目 。 


12.4 IPv6 地 址 测试 宏 
有 一 小 类 的 IPv6 应 用 进程 必须 清楚 与 其 通信 的 是 不 是 IPv4 对 端 。 这 些 应 用 程序 需要 知道 对 


端的 地 址 是 不 是 一 个 IPv4 映 射 的 IPv6 地 址 。 头 文件 <netinet/in.h> 中 定义 的 以 下 12 个 宏 用 于 测 
试 一 个 IPv6 地 址 是 否 归 属 某 个 类 型 。 








#include <netinet/in.h> 


int IN6 IS ADDR UNSPECIFIED(const struct in6_addr *aptr); 
int IN6, IS ADDR LOOPBACK(const struct in6 addr *aptr); 
int IN6 IS ADDR MULTICAST(const struct in6 addr *aptrr); 
int IN6, IS ADDR LINKLOCAL(const struct in6é_addr *aptr); 
int IN6, IS ADDR SITELOCAL(const struct in6, addr *aptr); 
int IN6 IS ADDR V4MAPPED(const struct in6 addr *aptr); 
int IN6 IS ADDR V4COMPAT(const struct in6 addr *aptr); 


int IN6 IS ADDR MC NODELOCAL(const struct in6 addr *aptr); 
int IN6. IS ADDR MC LINKLOCAL(const struct in6_addr *aptr); 
int TN6 IS ADDR MC SITELOCAL(const struct inó addr *aptr); 


int IN6 IS ADDR MC ORGLOCAL(const struct in6 addr *aptr); 
int IN6 IS, ADDR MC GLOBAL(const struct in6 addr *aptr); 


均 返回 : 若 IPw6 地 址 归属 指定 类 型 则 为 非 0， 否 则 为 0 


前 7 个 宏 测 试 IPv6 地 址 的 基本 类 型 。 我 们 在 A.5 节 中 介绍 这 些 地 址 类 型 。 后 5 个 宏 测 试 IPv6 多 
播 地 址 的 范围 (21.2 节 )。 


IPv4 兼 容 的 IPv6 地 址 用 于 后 来 不 被 看 好 的 某 个 过 渡 机 制 。 你 不 大 可 能 实际 看 到 这 类 地 址 ， 
也 没有 测试 它 的 必要 . 


IPv6 客 户 可 以 调用 TN6_IS_ADDR_V4MAPPED 宏 测试 由 解析 器 返回 的 IPPv6 地 址 .IJIPv6 服 务 器 同 
样 可 以 调用 这 个 宏 测试 由 accept 或 ecvfrom 返 回 的 IPv6 地 址 。 

作为 需要 使 用 这 个 宏 的 一 个 例子 ， 让 我 们 考虑 FTP 和 它 的 PORT 指令。 如 果 启 动 一 个 FTP 客 
户 ， 登 录 到 一 个 FTP 服 务 器 ， 然 后 发 出 FTP 的 air 命 令 ， 那 么 FTP 客 户 将 通过 控制 连接 向 FTP 服 务 
器 发 送 一 个 PORT 指令 。 这 条 指令 把 客户 的 IP 地 址 和 端口 号 告知 服务 器 ， 服 务 器 据 此 随后 就 建立 
一 个 数据 连接 。(TCPv1 的 第 27 章 中 包含 FTP 应 用 协议 的 所 有 细节 。) 然而 下 v6 的 FTP 客 户 必 须 清 
楚 对 端 是 一 个 IPv4 服 务 器 还 是 一 个 IPv6 服 务 器 ， 因 为 两 者 所 需 的 PORT 指 令 格式 是 不 同 的 。 前 者 
需要 的 格式 形 如 “PORT a1,a2,a3,a4,P1,P2", 其 中 前 四 个 数字 每 个 都 在 0~~255 之 间 ) 构成 
一 个 4 字 节 的 IPv4 地 址 , 后 两 个 数字 构成 2 字 节 的 端口 号 。 后 者 需要 一 个 EPRT 指 令 (参见 RFC 2428 
[ Allman, Ostermann, and Metz 1998])， 包 含 一 个 地 址 族 、 文 本 格式 的 地 址 和 文本 格式 的 端口 号 。 
习题 12.1 给 出 了 IPv4 和 IPv6 上 FTP 协 议 行 为 的 一 个 例子 。 
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大 多 数 现 有 的 网 络 应 用 程序 是 为 IPv4 编 写 的 。 这 些 应 用 程序 分 配 并 填写 一 个 或 多 个 
sockadGr_in 结 构 ， 并 且 调 用 socket 总 是 指定 af_INET 为 第 一 个 函数 参数 。 从 图 1-5 到 图 1-6 的 
转换 可 以 看 出 ， 把 这 些 IPv4 应 用 程序 转换 成 用 上 IPv6 并 不 费劲 。 我 们 展示 过 的 修改 操作 中 有 许 
多 可 使 用 一 些 编辑 脚本 自动 执行 。 较 为 依赖 IPv4 的 程序 转换 起 来 需 多 花 些 功夫 ， 因 为 它们 使 用 
了 诸如 多 播 、IP 选 项 或 原始 套 接 字 等 特性 。 

如 果 在 源 代码 级 上 把 一 个 应 用 程序 转换 成 用 上 IPv6 并 发 布 它 ， 屠 么 我 们 还 不 得 不 考虑 接纳 
者 的 系统 是 否 支 持 IPv6。 这 个 考虑 的 典型 处 理 办 法 是 在 代码 中 到 处 使 用 #ifdaef 伪 代码 ， 以 尽 可 
能 使 用 [Pv6〈 因 为 我 们 已 在 本 章 中 看 到 ，IPv6 客 户 仍 能 与 IPv4 服 务 器 通信 ， 反 之 亦 然 )。 这 种 办 
法 的 问题 是 : 代码 将 被 杂乱 无 章 地 迅速 插入 许多 #ifdaef 伪 代码 , 在 代码 理解 和 维护 上 造成 困难 。 

更 好 的 办 法 是 把 这 种 向 IPv6 的 转换 视 为 促成 程序 变 得 协议 无 关 的 一 个 机 会 。 第 一 步 去 除 所 
有 gethostbyname 和 gethostbyaddr 调用 ， 改 用 前 一 章 中 讲解 过 的 getaddrinfo 和 
getnameinfo 这 两 个 函数 。 这 一 步 使 得 我 们 能 够 把 套 接 字 地 址 结构 作为 不 透明 对 象 来 处 理 ， 并 
且 就 像 bina、connect、recvfrom 等 基本 套 接 字 函 数 所 做 的 那样 ， 用 一 个 指针 及 大 小 来 指 代 它 
们 。3.8 节 的 sock_XXX 函 数 能 够 帮助 我 们 独立 于 IPv4 和 IPv6 地 操 维 它们。 显然 这 些 函 数 中 含有 
#ifdef 伪 代码 以 处 理 IPv4 和 IPv6， 但 是 把 所 有 的 协议 相关 内 容 隐 蔽 在 若干 个 库 函 数 中 将 简化 我 
们 的 代码 。 我 们 将 在 21.7 节 开发 一 组 mcast_XXX 函 数 ， 它 们 能 够 使 得 多 播 应 用 程序 独立 于 IPv4 
或 IPv6。 

另 一 点 需要 考虑 的 是 :如果 我 们 在 一 个 同时 支持 IPv4 和 IPv6 的 系统 上 编译 源 代 码 ， 然 后 发 
布 其 可 执行 代码 或 目标 文件 (但 是 不 发 布 源 代码 )， 然而 某 个 接纳 者 却 在 不 支持 IPv6 的 某 个 系统 
上 执行 我 们 的 应 用 程序 ， 那 会 发 生 什 么 ? 假设 该 接纳 者 存在 这 样 一 个 机 会 : 本 地 名 字 服 务 器 支 
持 AAAA 记 录 , 并 且 能 够 为 我 们 的 应 用 进程 尝试 连接 到 的 某 个 对 端 主 机 同时 返回 AAAA 记 录 和 A 
记录 。 当 我 们 的 应 用 进程 调用 socket 创 建 IPv6 套 接 字 时 , 如 果 本 地 主机 不 支持 IPv6, 那么 socket 
调用 将 以 失败 告终 。 我 们 可 以 忽略 来 自 socket 的 错误 ,继续 尝试 由 名 字 服 务 器 返回 的 地 址 列表 
中 的 下 一 个 地 址 ， 而 这 些 细 节 由 我 们 在 前 一 章 中 介绍 过 的 帮手 函数 〈 即 getaddrinfo 的 若干 个 
简化 访问 接口 函数 ) 来 处 理 。 假 设 对 端 主机 有 一 个 A 记录 ， 并 且 名 字 服 务 器 在 返回 所 有 AAAA 
记录 之 后 还 返回 这 个 A 记 录 ， 那 就 有 可 能 成 功 创建 一 个 IPv4 套 接 字 。 这 类 功能 应 归属 某 个 库 函 
数 提供 ， 而 不 应 该 出 现在 每 个 应 用 程序 的 源 代码 中 。 

为 了 能 够 把 套 接 字 描 述 符 传递 给 单纯 支持 IPv4 或 IPv6 的 应 用 进程 ，RFC 2133 [Gilligan et al. 
1997] 引入 了 IPV6_ADDRFROM 套 接 字 选项 ， 它 能 够 返回 一 个 套 接 字 描 述 符 ， 或 者 潜在 地 改变 与 
一 个 套 接 字 关 联 的 地 址 族 。 然 而 这 个 套 接 字 选 项 的 语义 从 未 完整 地 说 明 过 ， 而 且 它 仅仅 在 非常 





361) 特定 的 车 于 情况 下 才 有 用 ， 这 个 API 的 下 一 个 修订 本 于 是 把 它 删 除 掉 了 。 
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双 栈 主机 上 的 IPv6 服 务 器 既 能 服务 于 IPv4 客 户 ， 又 能 服务 于 IPv6 客 户 。IPv4 客 户 发 送 给 这 
种 服务 器 的 仍然 是 IPv4 数 据 报 ， 不 过 服务 器 的 协议 栈 会 把 客户 主机 的 地 址 转换 成 一 个 IPv4 映 射 
的 IPv6 地 址 ， 因 为 IPv6 服 务 器 仅仅 处 理 [Pv6 套 接 字 地 址 结构 。 

类 似 地 ， 双 栈 主机 上 的 IPv6 客 户 能 够 和 IPv4 服 务 器 通信 。 客 户 的 解析 器 会 把 服务 器 主机 所 
有 的 A 记录 作为 IPv4 映 射 的 IPv6 地 址 返回 给 客户 , 而 客户 指定 这 些 地 址 之 一 调用 connect 将 会 使 
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双 栈 发 送 一 个 IPv4 SYN 分 节 。 只 有 少量 特殊 的 客户 和 服务 器 需要 知道 对 端 使 用 的 具体 协议 〈 例 
如 FTP)， 而 IN6_IS_ADDR_V4MaAPPED 宏 可 用 于 判定 对 端 是 否 在 使 用 IPv4。 


习题 


12.1 在 一 个 运行 JPv4 和 IPv6 的 双 栈 主机 上 启动 一 个 IPv6 的 FTP 客 户 。 连 接 到 一 个 IPv4 的 FTP 服 务 器 ， 确 保 
客户 处 于 主动 (active) 模式 (也 许 得 发 出 passive 命 令 以 关闭 被 动 模式 )， 发 出 debug 命 令 ， 然 后 
是 dir 命 令 。 然 后 对 一 个 IPv6 的 FTP 服 务 器 执行 同样 的 操作 ， 比 较 由 air 命 令 引发 的 两 个 PORT 指令 。 

12.2 编写 一 个 程序 , 它 需 要 一 个 IPv4 点 分 十 进 制 数 串 地 址 作为 唯一 的 命令 行 参数 。 它 创建 一 个 IPv4 的 TCP 
套 接 字 ， 并 把 这 个 地 址 和 某 个 端 号 口 〈 壁 如 9999) 捆绑 到 该 套 接 字 ， 接 着 调用 1isten， 然 后 就 是 
pause。 编 写 类 似 的 另 一 个 程序 ， 它 的 唯一 命令 行 参数 是 一 个 IPv6 的 十 六 进 制 数 串 地 址 ， 而 且 创建 
的 是 [Pv6 的 TCP 监 听 套 接 字 。 以 通 配 地 址 作为 参数 启动 编写 的 IPv4 程 序 。 然 后 在 另 一 个 窗口 中 以 IPv6 
通 配 地 址 作为 参数 启动 编写 的 IPv6 程 序 。 在 IPv4 程 序 已 经 绑 定 一 个 端口 的 前 提 下 ， 你 能 启动 捆绑 同 
一 个 端口 号 的 IPv6 程 序 吗 ? SO_REUSEADDR 套 接 字 选 项 会 有 所 帮助 吗 ? 如 果 先 启动 ITPv6 程 序 ， 再 党 
试 启动 IPv4 程 序 ， 又 是 什么 情况 ? 
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13.1 概述 


守护 进程 (daemon). 是 在 后 台 运行 且 不 与 任何 控制 终端 关联 的 进程 。Unix 系 统 通常 有 很 多 
守护 进程 在 后 台 运 行 〈 约 在 20 到 50 个 的 量 级 )， 执 行 不 同 的 管理 任务 。 

守护 进程 没有 控制 终端 通常 源 于 它们 由 系统 初始 化 脚本 启动 。 然 而 守护 进程 也 可 能 从 某 个 
终端 由 用 户 在 shell 提 示 符 下 键入 命令 行 启动 , 这 样 的 守护 进程 必须 亲自 脱离 与 控制 终端 的 关联 ， 
从 而 避免 与 作业 控制 、 终 端 会 话 管 理 、 终 端 产生 信号 等 发 生 任何 不 期 望 的 交互 ， 也 可 以 避免 在 
后 台 运行 的 守护 进程 非 预期 地 输出 到 终端 。 

守护 进程 有 多 种 启动 方法 。 

(1) 在 系统 启动 阶段 ， 许 多 守护 进程 由 系统 初始 化 脚本 启动 。 这 些 脚 本 通常 位 于 /etc 目 录 
或 以 /etc/rc 开 头 的 某 个 目录 中 ， 它 们 的 具体 位 置 和 内 容 却 是 实现 相关 的 。 由 这 些 脚本 启动 的 
守护 进程 一 开始 时 拥有 超级 用 户 特权 。 

有 若干 个 网 络 服务 器 通常 从 这 些 脚本 启动 : inetd 超 级 服务 器 ( 见 下 一 条 )、Web 服 务 器 、 
邮件 服务 器 (经 常 是 sendmai1)。 我 们 将 在 13.2 节 讲解 的 sysloga 守 护 进 程 通常 也 由 某 个 系统 初 
始 化 脚本 启动 。 

(2) 许多 网 络 服务 器 由 将 在 本 章 靠 后 介绍 的 inetd 超 级 服务 器 启动 。ineta 自 身 由 上 一 条 中 
的 某 个 脚本 启动 。inetde 监 听 网 络 请 求 (Telnet、FTP 等 )， 每 当 有 一 个 请 求 到 达 时 ， 启 动 相应 的 
实际 服务 器 〈Telnet 服 务 器 、FTP 服 务 器 等 )。 

(3) cron 守 护 进程 按照 规则 定期 执行 一 些 程序 ， 而 由 它 启 动 执 行 的 程序 同样 作为 守护 进程 
运行 。cron 自 身 由 第 1 条 启动 方法 中 的 某 个 脚本 启动 。 

(4) at 命 令 用 于 指定 将 来 某 个 时 刻 的 程序 执行 。 这 些 程序 的 执行 时 刻 到 来 时 ， 通 常 由 cron 
守护 进程 启动 执行 它们 ， 因 此 这 些 程 序 同 样 作为 守护 进程 运行 。 

(5) 守护 进程 还 可 以 从 用 户 终端 或 在 前 台 或 在 后 台 启 动 。 这 么 做 往往 是 为 了 测试 守护 程序 或 
重启 因 某 种 原因 而 终止 了 的 某 个 守护 进程 。 

因为 守护 进程 没有 控制 终端 ， 所 以 当 有 事 发 生 时 它们 得 有 输出 消息 的 某 种 方法 可 用 ， 而 这 
些 消息 既 可 能 是 普通 的 通告 性 消息 ， 也 可 能 是 需 由 系统 管理 员 处 理 的 紧急 事件 消息 。syslog 函 
数 是 输出 这 些 消息 的 标准 方法 ， 它 把 这 些 消息 发 送 给 syslogq 守 护 进程 。 
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43.2 syslogd 守护 进程 


Unix 系 统 中 的 syslogda 守 护 进程 通常 由 某 个 系统 初始 化 脚本 启动 ， 而 且 在 系统 工作 期 间 一 
直 运 行 。 源 自 Berkeley 的 sysloga 实 现在 启动 时 执行 以 下 步骤 。 
(1) 读 取 配 置 文件 。 通常 为 /etc/syslog.conf 的 配置 文件 指定 本 守护 进程 可 能 收取 的 各 种 
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日 志 消 息 〈log message) 应 该 如 何 处 理 。 这 些 消 息 可 能 被 添加 到 一 个 文件 (/dev/console 文 件 
是 一 个 特例 ， 它 把 消息 写 到 控制 台 上 ), 或 被 写 到 指定 用 户 的 登录 窗口 (车 该 用 户 已 登录 到 本 守 
护 进 程 所 在 系统 中 )， 或 被 转发 给 男 一 个 主机 上 的 sysloga 进 程 。 

(2) 创建 一 个 Unix 域 数据 报 套 接 字 ， 给 它 捆绑 路 径 名 /var/run/1og〔 在 某 些 系统 上 是 
/dev/10g)。 

(3) 创建 一 个 UDP 套 接 字 ， 给 它 捆绑 端口 514 (syslog 服 务 使 用 的 端口 号 )。 

(4) 打开 路 径 名 /dev/xlog。 来 自 内 核 中 的 任何 出 错 消息 看 着 像 是 这 个 设备 的 输入 。 

此 后 syslogd 守 护 进 程 在 一 个 无 限 循环 中 运行 ， 调用 select 以 等 待 它 的 3 个 描述 符 〈 分 别 
来 自 上 述 第 2、 第 3 和 第 4 步 ) 之 一 变 为 可 读 ， 读 入 日 志 消息 ， 并 按照 配置 文件 进行 处 理 。 如 果 守 
护 进程 收 到 SIGHUP 信 和 号， 那 就 重新 读 取 配 置 文件 。 

通过 创建 一 个 Unix 域 数据 报 套 接 字 ， 我 们 就 可 以 从 自己 的 守护 进程 中 通过 往 syslogd 绑 定 
的 路 径 名 发 送 我 们 的 消息 达到 发 送 日 志 消息 的 目的 ， 然 而 更 简单 的 接口 是 使 用 将 在 下 一 节 讲 解 
的 syslog 函 数 。 另 外 ， 我 们 也 可 以 创建 一 个 UDP 套 接 字 ， 通 过 往 环 回 地 址 和 端口 5S14 发 送 我 们 
的 消息 达到 发 送 日 志 消 息 的 目的 。 


较 新 的 syslogd 实 现 禁止 创建 UDP 和 套 接 字 ， 除 非 管 理 员 明确 要 求 。 如 此 改变 的 理由 在 于 : 
允许 任何 进程 往 这 个 套 接 字 发 送 UDP 数 据 报 会 让 系统 易 遭 拒绝 服务 攻击 ， 其 文件 系统 可 能 被 
填 满 (例如 通过 填 满 日 志文 件 达 到 目的 )， 来 自 合 法 进程 的 日 志 消 息 可 能 被 排挤 掉 ( 例如 通过 
溢出 sysloga 的 套 接 字 接 收 缓冲 区 达到 目的 )。 

syslogq 的 各 种 实现 之 间 存 在 差异 .举例 来 说 ， 源 自 Berkeley 的 实现 使 用 Unix 域 套 接 字 ， 
而 System V 的 实现 使 用 基于 流 的 日 志 驱 动 程序 .“ 源 自 Berkeley 的 各 种 不 同 实现 给 Unix 域 套 接 
字 使 用 的 路 径 名 也 不 尽 相 同 。 如 果 使 用 syslog 函 数 ， 我 们 就 可 以 忽略 所 有 这 些 细节 。 
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既然 守护 进程 没有 控制 终端 ， 它 们 就 不 能 把 消息 fprintf 到 stderr 上 。 从 守护 进程 中 登记 
消息 的 常用 技巧 就 是 调用 syslog 函 数 。 


#include «syslog.h» 





void syslog(int priority, const char *message, ... 


本 函数 最 初 是 为 BSD 系 统 开发 的 ， 不 过 如 今 几乎 所 有 Unix 厂 商都 有 提供 。POSIX 规 范 对 
syslog 的 说 明 与 本 节 所 述 相符 。RFC 3164 给 出 了 BSD 上 syslog 协 议 的 文档 。 

本 函数 的 priority 参 数 是 级 别 (level) 和 设施 (facility) 两 者 的 组 合 ， 分 别 如 图 13-1 和 图 13-2 
所 示 。RFC 3164 还 有 关于 该 参数 的 额外 细节 。message 参 数 类 似 printf 的 格式 串 ， 不 过 增设 了 
sm 规范 ， 它 将 被 替换 成 与 当前 errno 值 对 应 的 出 错 消息 。message 参 数 的 末尾 可 以 出 现 一 个 换行 
符 ， 不 过 并 非 必需 。 


CD 注意 区 别 这 里 的 流 (streams) 和 我 们 一 直 在 使 用 的 字 节 流 (stream)。 前 者 是 一 种 访问 驱动 程序 (driver) 的 方法 ， 
在 本 书 第 31 章 中 介绍 ， 也 称 为 STREAMS; 后 者 是 与 数据 报 相 对 立 的 数据 传送 方式 ,我们 把 它 译 成 字 节 流 - -方面 
避免 了 与 流 相 混 淆 ， 男 一 方面 强调 它 是 无 记录 边界 的 数据 流 (不 同 于 面向 记录 的 数据 流 ， 例 如 SCTP 关 联 中 的 各 
个 流 )， 或 者 说 它 的 记录 单元 是 无 可 最 小 的 字 节 (而 面向 记录 数据 流 的 记录 单元 往往 远 不 止 … 个 字 节 )。 另 外 -- 
个 应 该 避免 混 活 的 概念 是 标准 IO 函数 库 中 的 标准 1/O 流 standard VO streams)， 它 在 本 书 中 出 现 得 极 少 。 多 媒体 
通信 中 还 有 流 媒体 的 概念 。 一 一 译 者 注 
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如 图 13-1 所 示 ， 日 志 消 息 的 /eve!r 可 从 0 到 7， 它 们 是 按 从 高 到 低 的 顺序 排列 的 。 如 果 发 送 者 
未 指定 level 值 ， 那 就 默认 为 LOG_NOTTCE。 


LOG, EMERG 
LOG ALERT 
LOG CRIT 


LOG_ERR 
LOG_WARNING 
LOG_NOTICE 
LOG_INFO 


系统 不 可 用 《最 高 优先 级 ) 
必须 立即 采取 行动 

临界 条 件 

出 错 条 件 

警告 条 件 

正常 然而 重要 的 条 件 〈 默 认 值 》 
通告 消息 
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LOG DEBUG 调试 级 消息 (最 低 优先 级 ) 


图 13-1 日 志 消 息 的 level 


日 志 消 息 还 包含 一 个 用 于 标识 消息 发 送 进程 类 型 的 facility。 图 13-2 列 出 了 faciliy 的 各 种 值 。 
如 果 发 送 者 未 指定 facilisy 值 ， 那 就 默认 为 LOG_USER。 


| 


LOG AUTH 安全 /授权 消息 

LOG AUTHPRIV 安全 /授权 消息 〈 私 用 ) 
LOG_CRON cron 守 护 进程 

LOG DAEMON 系统 守护 进程 

LOG_FTP FTP 守 护 进程 

LOG_KERN 内 核 消息 

LOG, LOCALO 本 地 使 用 

LOG LOCAL1 本 地 使 用 

LOG LOCAL2 本 地 使 用 

LOG, LOCAL3 本 地 使 用 

LOG_LOCAL4 本 地 使 用 

LOG, LOCALS 本 地 使 用 

LOG LOCAL 本 地 使 用 

LOG LOCAL7 本 地 使 用 

LOG_LPR 行 式 打印 机 系统 
LOG_MAIL 邮件 系统 

LOG NEWS 网 络 新 闻 系 统 
LOG_SYSLOG 由 syslogd 内 部 产生 的 消息 
LOG_USER 任意 的 用 户 级 消息 (默认 》 
LOG_UUCP UUCP 系 统 


图 13-2 日 志 消 息 的 facility 
举例 来 说 ， 当 rename 函 数 调用 意外 失败 时 ， 守 护 进程 可 以 执行 以 下 调用 : 


syslog (LOG_INFOILOG_LOCAL2, filel, file2); 
faciliy 和 level 的 目的 在 于 ,允许 在 /etc/syslog.conf 文 件 中 统一 配置 来 自 同 一 给 定 设施 的 所 有 
消息 ， 或 者 统一 配置 具有 相同 级 别 的 所 有 消息 。 举 例 来 说 ， 该 配置 文件 可 能 含有 以 下 两 行 : 


kern.* /dev/console 
local7.debug /var/log/cisco.log 


这 两 行 指定 所 有 内 核 消 息 登 记 到 控制 台 ， 来 自 loca17 设 施 的 所 有 aebug 消 息 添 加 到 文件 /var/ 
log/cisco.1og 的 末 尼 。 

当 syslog 被 应 用 进程 首次 调用 时 ， 它 创建 一 个 Unix 域 数据 报 套 接 字 ， 然 后 调用 connect 连 
接 到 由 syslogd 守 护 进 程 创建 的 Unix 域 数据 报 套 接 字 的 众所周知 路 径 名 ( 壁 如 /var/run/1o0g)。 
这 个 套 接 字 一 直 保 持 打开 , 直到 进程 终止 为 止 ,作为 替换 ,进程 也 可 以 调用 openlog 和 closelog。 
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#include «syslog.h» 


void openlog(const char *ident, int options, int facility) ; 





void closelog (void); 


openlog 可 以 在 首次 调用 syslog 前 调用 , closelog 可 以 在 应 用 进程 不 再 需要 发 送 日 志 消 息 
时 调用 。 

ident 人 参数 是 一 个 由 syslog 冠 于 每 个 日 志 消息 之 前 的 字符 串 。 它 的 值 通常 是 程序 名 。? 

options 参 数 由 图 13-3 所 示 的 一 个 或 多 个 常 值 的 逻辑 或 构成 。 









车 无 法 发 送 到 syslogG 守 护 进 程 则 登记 到 控制 台 
不 延迟 打开 ， 立 即 创建 套 接 字 

既 发 送 到 syslosd 守 护 进程 ， 又 登记 到 标准 错误 输出 
随 每 个 日 志 消 息 登 记 进 程 ID 










图 13-3 ”openlog 的 options 


openlog 被 调用 时 , 通常 并 不 立即 创建 Unix 域 套 接 字 。 相反, 该 套 接 字 直到 首次 调用 syslog 
时 才 打 开 。LOG_NDELAY 选 项 迫使 该 套 接 字 在 cpenlog 被 调用 时 就 创建 。 

openlog 的 facility 参 数 为 没有 指定 设施 的 后 续 syslog 调 用 指定 一 个 默认 值 。 有 些 守 护 进程 
通过 调用 cpenlog 指 定 一 个 设施 〈 对 于 一 个 给 定 守护 进程 ， 设 施 通常 不 变 )， 然 后 在 每 次 调用 
syslog 时 只 指定 级 别 〈 因 为 级 别 可 随 错误 性 质 改 变 )。 

日 志 消息 也 可 以 由 logger 命 令 产生 。 举 例 来 说 ，1locgger 命 令 可 用 在 shell 脚 本 中 以 向 
syslogd 发 送 消息 。 





图 13-4 给 出 了 名 为 aaemon_init 的 函数 ， 通 过 调用 它 〈 通 常 从 服务 器 程序 中 )， 我 们 能 够 把 

一 个 普通 进程 转变 为 守护 进程 。 该 函数 在 所 有 Unix 变 体 上 都 应 该 适合 使 用 ， 不 过 有 些 Unix 变 体 

提供 一 个 名 为 aaemon 的 C 库 函数 ， 实 现 类 似 的 功能 。BSD 和 Linux 均 提供 这 个 aaemon 函 数 。 

fork 

10-13 ”首先 调用 fork， 然 后 终止 父 进程 ， 留 下 子 进 程 继续 运行 。 如 果 本 进程 是 从 前 台 作 为 一 
个 shell 命 令 启 动 的 ， 当 父 进程 终止 时 ，shell 就 认为 该 命令 已 执行 完毕 。 这 样子 进程 就 
自动 在 后 台 运 行 。 另 外 ， 子 进程 继承 了 父 进 程 的 进程 组 ID， 不 过 它 有 自己 的 进程 ID。 
这 就 保证 子 进程 不 是 一 个 进程 组 的 头 进程 ， 这 是 接 下 去 调用 sersia 的 必要 条 件 。 

setsid 

15-16 ”setsid 是 一 个 POSIX 函 数 ， 用 于 创建 一 个 新 的 会 话 (session)。(APUE 第 9 章 详细 讨论 
进程 关系 和 会 话 。) 当前 进程 变 为 新 会 话 的 会 话 头 进程 以 及 新 进程 组 的 进程 组 头 进程 ， 
从 而 不 再 有 控制 终端 。 


© 请 留意 openlog 的 大 多 数 实 现 仅仅 保存 - 个 指向 iaenmt 字 符 串 的 指针 ; 它们 不 复制 这 个 字符 串 。 这 就 是 说 该 字符 
串 不 应 该 在 栈 上 分 配 〈 自动 变量 就 是 这 样 )， 因 为 以 后 调用 syslog 时 如 果 相 应 的 栈 帧 被 弹 走 了 ， 那 么 由 openloe 
保存 的 指针 将 不 再 指向 原 ident 字 符 串 。 一 一 Stevens 注 
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——— = M —— ——-—lib/daemon init.c 
1 #include "unp.h" 
2 #include «syslog.h» 
3 #define MAXFD 64 
4 extern int daemon, proc; /* defined in error.c */ 
5 int i 
6 daemon_init (const char *pname, int facility) 
7 1 
8 int i; 
9 pid t pid; 
10 if ( (pid = Fork()) < 0) 
11 return (-1); 
12 else if (pid) 
13 .exit(0); /* parent terminates */ 
14 /* child 1 continues... */ 
15 if (setsid() « 0) /* become session leader */ 
16 return (-1); 
17 Signal(SIGHUP, SIG IGN); 
18 if ( (pid = Fork()) < 0) 
19 return (-1); 
20 else if (pid) 
21 exit (0); /* child 1 terminates */ 
22 /* child 2 continues... */ 
23 daemon_proc = 1; /* for err XXX() functions */ 
24 chdir("/"); /* change working directory */ 
25 /* close off file descriptors */ 
26 for (i = 0; i < MAXFD; i++) 
27 close(i); 
28 /* redirect stdin, stdout, and stderr to /dev/null */ 
29 open("/dev/null", O RDONLY); 
30 open("/dev/null", O_RDWR); 
31 open("/dev/null", O_RDWR) ; 
32 openiog(pname, LOG_PID, facility); 
33 return (0); /* success */ 
34 ) 
5 ————— — — ——J[ib/daemon init.c 
图 13-4 ”Gaemon_init 函 数 ， 守护 进程 化 当前 进程 
忽略 STGHUP 信 号 并 再 次 fork 


17~21 


忽略 SIGHUP 信 号 并 再 次 调用 fork。 该 函数 返回 时 ， 父 进程 实际 上 是 上 一 次 调用 fork 
产生 的 子 进程 ， 它 被 终止 掉 ， 留 下 新 的 子 进程 继续 运行 。 再 次 fork 的 目的 是 确保 本 守 
护 进程 将 来 即使 打开 了 一 个 终端 设备 ， 也 不 会 自动 获得 控制 终端 。 当 没有 控制 终端 的 
一 个 会 话 头 进程 打开 一 个 终端 设备 时 【〈 该 终端 不 会 是 当前 某 个 其 他 会 话 的 控制 终端 )， 
该 终端 自动 成 为 这 个 会 话 头 进程 的 控制 终端 。 然 而 再 次 调用 fork 之 后 ， 我 们 确保 新 的 
子 进 程 不 再 是 一 个 会 话 头 进程 ， 从 而 不 能 自动 获得 一 个 控制 终端 。 这 里 必须 忽略 
SIGHUP 信 号 ， 因 为 当 会 话 头 进程 ( 即 首次 fork 产 生 的 子 进程 ) 终止 时 ， 其 会 话 中 的 所 
有 进程 〈《 即 再 次 fork 产 生 的 子 进程 ) 都 收 到 SITGHUP 信 和 号 。 
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为 错误 处 理 函 数 设 置 标识 
23 ”把 全 局 变量 daemon_proc 置 为 非 0 值 。 这 个 外 部 变量 由 我 们 的 err_XXX 函 数 (D.4 节 》 
定义 ， 其 值 非 0 是 在 告知 它们 改 为 调用 syslog， 以 取代 fprintf 到 标准 错误 输出 。 该 
变量 省 得 我 们 从 头 到 尾 修 改 程序 代码 ， 在 服务 器 不 是 作为 守护 进程 运行 的 场合 (例如 
测试 服务 器 程序 时 ) 调用 某 个 错误 处 理 函 数 ， 在 服务 器 作为 守护 进程 运行 的 场合 调用 
sysloge 
改变 工作 目录 
24 ”把 工作 目录 改 到 根 目录 ， 不 过 有 些 守 护 进 程 男 有 原因 和 需 改 到 其 他 某 个 目录 。 举 例 来 说 ， 
打印 机 守护 进程 可 能 改 到 打印 机 的 假 脱 机 处 理 (spool) 目录 ， 因 为 那里 是 它 做 全 部 工作 
的 地 方 。 要 是 守护 进程 产生 了 某 个 core 文 件 ,该 文件 就 存放 在 当前 工作 目录 中 。 改 变 工 
作 目 录 的 另 一 个 理由 是 ， 守 护 进 程 可 能 是 在 某 个 任意 的 文件 系统 中 启动 ， 如 果 仍 然 在 其 
中 ， 那 么 该 文件 系统 就 无 法 拆卸 (unmounting)， 除 非 使 用 潜在 破坏 性 的 强制 措施 。 
关闭 所 有 打开 的 描述 符 
25-27 “关闭 本 守护 进程 从 执行 它 的 进程 《通常 是 一 个 shell) 继承 来 的 所 有 打开 着 的 描述 符 。 
问题 是 怎样 检测 正在 使 用 的 最 大 描述 符 : 没有 现成 的 Unix 函 数 提供 该 值 。 检 测 当前 进 
程 能 够 打开 的 最 大 描述 符 数 目 自 有 办 法 ， 然 而 由 于 这 个 限制 可 以 是 无 限 的， 这 样 的 监 
测 也 变 得 复杂 起 来 (参见 APUE 第 43 页 )。 我 们 的 解决 办 法 是 干脆 关闭 前 64 个 描述 符 ， 
即使 其 中 大 部 分 可 能 并 没有 打开 。 


Solaris 提 供 了 一 个 名 为 closefrom 的 函数 ， 可 用 于 解决 守护 进程 的 这 个 问题 。 


将 etain、stdaout 和 stderr 重 定向 到 /aev/nul1 

29-31 打开 /Gev/nul1 作 为 本 守护 进程 的 标准 输入 、 标 准 输出 和 标准 错误 输出 。 这 一 点 保证 
这 些 常 用 找 述 符 是 打开 的 ， 针 对 它们 的 read 系 统 调 用 返回 0 (EOF )，write 系 统 调用 
则 由 内 核 丢 弃 所 写 数 据 。 打 开 这 些 描述 符 的 理由 在 于 ， 守 护 进程 调用 的 那些 假设 能 从 
标准 输入 读 或 者 往 标准 输出 或 标准 错误 输出 写 的 库 函 数 将 不 会 因 这 些 描述 符 未 打开 而 
失败 。 这 种 失败 是 一 种 隐患 。 要 是 一 个 守护 进程 未 打开 这 些 描述 符 ， 却 作为 服务 器 打 
开 了 与 某 个 客户 关联 的 一 个 套 接 字 ， 那 么 这 个 套 接 字 很 可 能 占用 这 些 描述 符 ( 辟 如 标 
准 输出 或 标准 错误 输出 的 描述 符 1 或 2)， 这 种 情况 下 如 果 守 护 进程 调用 诸如 perror 之 
类 函数 ， 那 就 会 把 非 预期 的 数据 发 送 给 那个 客户 。 

使 用 sysloga 处 理 错误 

32 ”调用 openlog。 其 中 第 一 个 参数 来 自 调 用 者 ， 通 常 是 程序 的 名 字 壁 如 argv[0] )。 第 

二 个 参数 指定 把 进程 ID 加 到 每 个 日 志 消 息 中 。 第 三 个 参数 同样 由 调用 者 指定 ， 其 值 为 
图 13-2 所 示 的 常 值 之 一 或 为 0( 如 果 默 认 值 LOG_USER 可 接受 的 话 )。 

我 们 指出 ， 既 然 守 护 进程 在 没有 控制 终端 的 环境 下 运行 ， 它 绝 不 会 收 到 来 自 内 核 的 SIGHUP 
信号 。 许 多 守护 进程 因此 把 这 个 信和 号 作为 来 自 系 统管 理 员 的 一 个 通知 ， 表 示 其 配置 文件 已 发 生 
改动 ， 守 护 进程 应 该 重新 读 入 其 配置 文件 。 守 护 进程 同样 绝 不 会 收 到 来 自 内 核 的 SIGINT 信 号 和 
SIGWINCH 信 号 ， 因 此 这 些 信号 也 可 以 安全 地 用 作 系 统管 理 员 的 通知 手段 ， 指 示 守 护 进程 应 做 出 
反应 的 某 种 变动 已 经 发 生 。 


例子 : 作为 守护 进程 运行 的 时 间 获 取 服 务 器 程序 
图 13-5 修 改 自 图 11-14 中 的 协议 无 关 时 间 获 取 服务 器 程序 ， 它 调用 我 们 的 daemon_init 函 数 
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以 作为 守护 进程 运行 。 
inetd/daytimetcpsrv2.c 
1 #include *"unp.h* 
2 #include «time.h» 
3 int 
4 main(int argc, char **argv) 
5. t 
6 int listenfd, connfd; 
7 Socklen, t addrlen, len; 
8 struct sockaddr *cliaddr; 
9 char buff [MAXLINE] ; 
10 time t ticks; 
1i if (argc « 2 |! argc > 3) 
12 err quit("usage: daytimetcpsrv2 [ «host» ] «service or port>"); 
13 daemon init(argv[0], 0); 
14 if (argc == 2) 
15 listenfd = Tcp listen(NULL, argv[1], &addrlen); 
16 else 
17 listenfd = Tcp listen(argv[1], argv[2], &addrlen); 
18 cliaddr = Malloc(addrlen); 
19 for (; : ) ( 
20 len = addrien; 
21 connfd = Accept(listenfd, cliaddr, &len); 
22 err msg("connection from $s", Sock ntop(cliaddr, len)): 
23 ticks - time(NULL); 
24 snprintf(buff, sizeof(buff), "$.24s\r\n", ctime(&ticks)); 
25 Write(connfd, buff, strlen(buff)); 
26 Close (connfd); 
27 } 
28 } 
inetd/daytimetcpsrv2.c 





图 13-5 ”作为 守护 进程 运行 的 协议 无 关 时 间 获 取 服 务 器 程序 


改动 的 地 方 只 有 两 个 ， 在 程序 开始 执行 处 尽早 调用 我 们 的 daemon_init 函 数 ， 再 把 输出 客 
户 IP 地 址 和 端口 号 的 printf 改 为 调用 我 们 的 err_msg 函 数 。 事 实 上 ， 如 果 想 要 一 个 程序 作为 守 
护 进 程 运行 ， 我 们 就 得 避免 调用 诸如 printf 和 fprintft 之 类 函数 ， 改 而 调用 我 们 的 err_msg 函 
数 。 

注意 在 调用 daemon_init 之 前 我 们 是 如 何 检查 argc 并 输出 合适 的 用 法 消息 的 。 这 么 做 使 得 
启动 本 守护 进程 的 用 户 一 旦 提供 数目 不 正确 的 命令 行 参 数 就 能 立即 得 到 反馈 。 调 用 daemon_init 
之 后 ， 所 有 后 续 出 错 消息 进入 syslog， 不 再 有 作为 标准 错误 输出 的 控制 终端 可 用 。 

如 果 先 在 主机 1inux 上 运行 本 程序 ， 再 从 同一 个 主机 进行 连接 ( 壁 如 指定 连接 到 localhost)， 
然后 检查 /var/adm/messages 文 件 ( 设 施 为 LoG_UsER 的 消息 都 发 送 到 该 文件 )， 就 可 能 找到 类 
似 如 下 的 日 志 消息 : 


Jun 10 09:54:37 iinux daytimetcpsrv2[24288]: 
connection from 127.0.0.1.55862 


《本 行 太 长 已 做 折 行 处 理 。) 其 中 日 期 、 时 间 和 主机 名 由 syslogq 守 护 进程 自动 冠 于 日 志 消息 之 
前 。 
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13.5 inetd 守护 进程 。 


典型 的 Unix 系 统 可 能 存在 许多 服务 器 ， 它 们 只 是 等 待 客户 请 求 的 到 达 ， 例 如 FTP、Telnet、 
Rlogin、TFTP 等 等 。4.3BSD 面 世 之 前 的 系统 中 ， 所 有 这 些 服务 都 有 一 个 进程 与 之 关联 。 这 些 进 
程 都 是 在 系统 自 举 阶段 从 /etc/rc 文 件 中 启动 ， 而 且 每 个 进程 执行 几乎 相同 的 启动 任务 : 创建 

-个 套 接 字 ， 把 本 服务 器 的 众所周知 端口 捆绑 到 该 套 接 字 ， 等 待 一 个 连接 (若是 TCP) 或 一 个 

数据 报 ( 若 是 UDP)， 然 后 派生 子 进程 。 子 进程 为 客户 提供 服务 ， 父 进程 则 继续 等 待 下 一 个 客户 
请 求 。 这 个 模型 存在 两 个 问题 。 

(1) 所 有 这 些 守护 进程 含有 几乎 相同 的 启动 代码 ， 既 表现 在 创建 套 接 字 上 ,也 表现 在 演变 成 
守护 进程 上 《类似 我 们 的 aaemon_init 函 数 )。 

(2) 每 个 守护 进程 在 进程 表 中 占据 一 个 表 项 ， 然 而 它们 大 部 分 时 间 处 于 睡眠 状态 。 

4.3BSD 版 本 通过 提供 一 个 因特网 超级 服务 器 〈 即 inetG 守 护 进程 ) 使 上 述 问 题 得 到 简化 。 
基于 TCP 或 UDP 的 服务 器 都 可 以 使 用 这 个 守护 进程 。 它 是 这 样 解决 上 述 两 个 问题 的 。 

(1) 通过 由 inetG 处 理 普通 守护 进程 的 大 部 分 启动 细节 以 简化 守护 程序 的 编写 。 这么 一 来 每 
个 服务 器 不 再 有 调用 aaemon_init 函 数 的 必要 。 

(2) 单个 进程 (ineta) 就 能 为 多 个 服务 等 待 外 来 的 客户 请 求 ， 以 此 取代 每 个 服务 一 个 进程 
的 做 法 。 这 么 做 减少 了 系统 中 的 进程 总 数 。 

ineta 进 程 使 用 我 们 随 aaemon_init 函 数 讲解 的 技巧 把 自己 演变 成 一 个 守护 进程 。 它 接着 
读 入 并 处 理 自 己 的 配置 文件 。 通 常 是 /etcy/inetd.conf 的 配置 文件 指定 本 超级 服务 器 处 理 哪些 
服务 以 及 当 一 个 服务 请 求 到 达 时 该 怎么 做 。 该 文件 中 每 行 包含 的 字段 如 图 13-6 所 示 。 


service-name 必须 在 /etc/services 文 件 中 定义 

















socket-type stream OW FTCP) 或 agram (对 于 UDP) 
protocol 必须 在 /etc/protocols 文 件 中 定义 ;tcp 或 udp 
wait-flag 对 于 TCP 一 般 为 nowait， 对 于 UDP 一 般 为 wait 
login-name 来 白 /erc/passw6 的 用 户 名 ， 一 般 为 root 
server-program 调用 exec 指 定 的 完整 路 径 名 
server-program-arguments 调用 exec 指 定 的 命令 行 参 数 





图 13-6 inetd.conf 文 件 中 的 字段 
下 面 是 ineca.conf 文 件 中 作为 例子 的 若干 行 : 


ftp Stream tcp  nowait root /usr/bin/ftpd ftpd -1 

telnet stream tcp  nowait root /usr/bin/telnetd telnetd 

login stream tcp  nowait root  /usr/bin/rlogind rlogind -s 

tftp dgram udp wait nobody /usr/bin/tftpd tftpd -s /tftpboot 


当 inetd 调 用 exec 执 行 某 个 服务 器 程序 时 ， 该 服务 器 的 真实 名 字 总 是 作为 程序 的 第 一 个 参数 
传递 。 
图 13-6 及 其 示例 行 仅仅 是 例子 而 已 . 许多 厂商 为 inetda 自 行 增设 了 新 的 特性 。 例 如 在 TCP 
服务 器 和 UDP 服务 器 之 外 ， 添 加 处 理 RPC 服 务 器 的 能 力 ; 又 如 在 TCP 和 UDP 之 外 ， 添 加 处 理 
其 他 协议 的 能 力 。 另外， 调用 exec 指 定 的 路 径 名 和 服务 器 的 命令 行 参数 也 取决 于 实现 。 
wait-flag 3 ATRE RTRA. 总 地 说 来 ， 它 指定 由 inetd 启 动 的 守护 进程 是 否 有 意 接管 与 
之 关联 的 监听 套 接 字 。UDP 服 务 没有 分 离 的 监听 套 接 字 和 接受 套 接 字 ， 因 此 几乎 总 是 配置 成 
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wait。TCP 服 务 既 支持 wait 也 支持 nowait， 有 具体 取决 于 守护 程序 的 开发 人 员 ， 不 过 nowait 
更 为 常见 。 

IPV6 与 /etc/inetd.conf 的 交互 取决 于 各 个 厂商 的 实现 ， 并 要 求 特别 关注 其 中 的 细节 .。 
有 些 厂商 使 用 名 为 tcp6 或 udp6 的 protocol 字 段 表示 应 为 相应 服务 创建 一 个 I[Pv6 套 接 字 .有些 
厂商 使 用 名 为 Lcp46 或 udp46 的 protocol 字 段 表 示 相应 服务 希望 所 创建 的 套 接 字 同 时 支持 IPv6 
客户 和 IPv4 客 户 。 这 些 特殊 协议 名 通常 不 出 现在 /etc/protocols 文 件 中 . 


图 13-7 展 示 了 ineta 守 护 进 程 的 工作 流程 。 


listen() 
( 如 果 是 TCP 套 接 字 ) 













对 每 个 在 /ect/inetd.conf 








文件 中 列 出 的 服务 
select () 
等 待 可 读 条 件 
accept () 
( 如 果 是 TCP 套 接 字 ) 
子 进 程 





close 已 连接 套 接 字 close 除 套 接 字 之 外 
( 如 果 是 TCP ) 的 所 有 描述 字 


将 套 接 字 描述 字 aup 
到 描述 符 0、1 利 2， 
然后 close 原 套 接 字 









setgid() 
setuid() 


( 如 果 不 是 root ) 


exec () 服 务 器 程序 


图 13-7 ineta 的 工作 流程 
(1) 在 启动 阶段 ， 读 入 /etc/inetd.conf 文 件 并 给 该 文件 中 指定 的 每 个 服务 创建 一 个 适当 
类 型 ( 字 节 流 或 数据 报 ) 的 套 接 字 。ineta 能 够 处 理 的 服务 器 的 最 大 数目 取决 于 ineta 能 够 创建 
的 描述 符 的 最 大 数目 。 新 创建 的 每 个 套 接 字 都 被 加 入 到 将 由 某 个 select 调 用 使 用 的 一 个 描述 符 
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集中 。 

(2) 为 每 个 套 接 字 调 用 bind， 指 定 捆绑 相应 服务 器 的 众所周知 端口 和 通 配 地 址 。 这 个 TCP 
或 UDP 端口 号 通过 调用 getservbyname 获 得 ， 作 为 函数 参数 的 是 相应 服务 器 在 配置 文件 中 的 
service-name*f- BL Allprotocol F-Pt. 

(3) 对 于 每 个 TCP 套 接 字 , 调用 1isten 以 接受 外 来 的 连接 请 求 。 对 于 数据 报 套 接 字 则 不 执行 
本 步骤 。 

(4) 创建 完毕 所 有 套 接 字 之 后 , 调用 select 等 待 其 中 任何 一 个 套 接 字 变 为 可 读 。 回 顾 6.3 节 ， 
我 们 知道 TCP 监 听 套 接 字 将 在 有 一 个 新 连接 准备 好 可 被 接受 时 变 为 可 读 ，UDP 套 接 字 将 在 有 一 
个 数据 报到 达 时 变 为 可 读 。inetd 的 大 部 分 时 间 花 在 阻塞 于 select 调 用 内 部 ， 等 待 某 个 套 接 字 
变 为 可 读 。 

(5) 当 select 返 回 指出 某 个 套 接 字 已 可 读 之 后 , 如 果 该 套 接 字 是 一 个 TCP 套 接 字 , 而 且 其 服 
务 器 的 wait-flag 值 为 nowait， 那 就 调用 accept 接 受 这 个 新 连接 。 

(6) inetd 守 护 进 程 调用 fork 派 生 进程 ， 并 由 子 进程 处 理 服务 请 求 。 这 一 点 类 似 标准 的 并 发 
服务 器 (4.8 节 )。 

子 进 程 关 闭 除 要 处 理 的 套 接 字 描述 符 之 外 的 所 有 描述 符 ， 对 于 TCP 服 务 器 来 说 ， 这 个 套 接 
字 是 由 accept 返 回 的 新 的 已 连接 套 接 字 ， 对 于 UDP 服务 器 来 说 ， 这 个 套 接 字 是 父 进程 最 初创 建 
的 UDP 套 接 字 。 子 进程 调用 aup2 三 次 ， 把 这 个 待 处理 套 接 字 的 描述 符 复制 到 描述 符 0、1 和 2 CAR 
准 输入 、 标 准 输出 和 标准 错误 输出 )， 然 后 关闭 原 套 接 字 描述 符 。 子 进程 打开 的 描述 符 于 是 只 有 
0、1 和 2。 子 进程 自 标准 输入 读 实际 是 从 所 处 理 的 套 接 字 读 ， 往 标准 输出 或 标准 错误 输出 写实 际 
上 是 往 所 处 理 的 套 接 字 写 。 子 进程 根据 它 在 配置 文件 中 的 login-name 字 段 值 ， 调 用 getpwnam 获 
取 对 应 的 保密 字 文 件 表 项 。 如 果 login-name 字 段 值 不 是 root ， 子 进程 就 通过 调用 setgid 和 
setuid 把 自身 改 为 指定 的 用 户 。( 既 然 ineca 进 程 以 值 为 0 的 用 户 ID 运 行 ， 其 子 进 程 将 跨 fork 调 
用 继承 这 个 用 户 ID， 因 而 能 够 变 成 所 选 定 的 任何 用 户 。) 

子 进程 然后 调用 exec 执 行 由 相应 的 serverprogram 字 段 指定 的 程序 来 具体 处 理 请 求 , 相应 的 
server-program-arguments 字 段 值 则 作为 命令 行 参 数 传 递 给 该 程序 。 

(7) 如 果 第 $ 步 中 select 返 回 的 是 一 个 字 节 流 套 接 字 ， 那 么 父 进程 必须 关闭 已 连接 套 接 字 
(就 像 标准 并 发 服务 器 那样 )。 父 进程 再 次 调用 select， 等 待 下 一 个 变 为 可 读 的 套 接 字 。 

让 我 们 更 和 仔细 地 查看 ineta 中 发 生 的 描述 符 处 理 。 图 13-8 展 示 了 当 有 一 个 来 自 某 个 FIP 客户 
的 新 连接 请 求 到 达 时 ineta 中 的 描述 符 。 





发 往 TCP 端 口 21 
pe 等 待 变 成 可 读 的 

监听 TCP 套 接 字 

和 UDP 套 接 字 


accept 返 回 的 已 
连接 TCP 套 接 字 


图 13-8 ”目标 为 TCP 端 口 21 的 连接 请 求 到 达 时 的 inetaG 描 述 符 
这 个 连接 请 求 指向 TCP 端 口 21， 不 过 accept 为 它 创建 了 一 个 新 的 已 连接 套 接 字 。 
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图 13-9 展 示 了 在 调用 过 fork, 并 关闭 了 除 这 个 已 连接 套 接 字 描 述 符 之 外 的 所 有 描述 符 之 后 ， 
子 进程 中 的 描述 符 。 


inetd ( 子 进 程 ) 





到 客户 的 连接 accept 返 回 的 已 


连接 TCP 套 接 字 


图 13-9 子 进 程 中 的 ineta 描 述 符 


下 一 步 是 子 进程 把 这 个 已 连接 套 接 字 描 述 符 复制 到 描述 符 0、1 和 2， 然 后 关闭 原 描 述 符 。 
图 13-10 展 示 了 此 时 的 描述 符 。 


ineta《 子 进程 ) 








fd0〔 标 准 输 入 ) 
fal (标准 输出 ) 


fa2 〈 标 准 错误 
输出 ) 


exec 加 载 
服务 器 程序 


图 13-10 dup2 后 子 进程 中 的 inetd 描 述 符 

子 进程 接着 调用 exec。 回 顾 4.7 节 ， 我 们 知道 通常 情况 下 所 有 描述 符 跨 exec 保 持 打开 ， 
此 exec 加 载 的 实际 服务 器 程序 使 用 描述 符 0、!1 或 2 之 一 与 客户 通信 。 服 务 器 中 应 该 只 打开 这 些 

上 述 情形 处 理 的 是 配置 文件 中 指定 了 nowait 标 志 的 服务 器 。 对 于 TCP 服 务 这 是 典型 的 设 
置 ， 意 味 着 ineta 不 必 等 待 某 个 子 进程 终止 就 可 以 接受 对 于 该 子 进程 所 提供 之 服务 的 男 一 个 连 
接 。 如 果 对 于 某 个 子 进程 所 提供 之 服务 的 另 一 个 连接 确实 在 该 子 进程 终止 之 前 到 达 ， 那 么 一 旦 
父 进 程 再 次 调用 select， 这 个 连接 就 立即 返回 到 父 进程 。 前 面 列 出 的 第 4、 第 5 和 第 6 个 步骤 再 
次 被 执行 ， 于 是 派生 出 另 一 个 子 进程 来 处 理 这 个 新 请 求 。 

给 一 个 数据 报 服务 指 定 wait 标 志 导 致 父 进程 执行 的 步骤 发 生变 化 。 这 个 标志 要 求 inetda 必 
须 在 这 个 套 接 字 再 次 成 为 select 调 用 的 候选 套 接 字 之 前 等 待 当 前 服务 该 套 接 字 的 子 进 程 终止 。 
发 生 的 变化 有 以 下 几 点 。 

(1) fork 返 回 到 父 进程 时 ， 父 进程 保存 子 进程 的 进程 ID。 这 么 做 使 得 父 进 程 能 够 通过 查看 
由 waitpid 返 回 的 值 确 定 这 个 子 进程 的 终止 时 间 。 

(2) 父 进程 通过 使 用 Fp_cLR 宏 关闭 这 个 套 接 字 在 select 所 用 描述 符 集中 对 应 的 位 ， 达 成 在 
将 来 的 select 调 用 中 禁止 这 个 套 接 字 的 目的 。 这 一 点 意味 着 子 进 程 将 接管 该 套 接 字 ， 直 到 自身 
终止 为 止 。 
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(3) 当 子 进程 终止 时 ， 父 进程 被 道 知 以 一 个 sTGCHLD 信 和 号， 而 父 进程 的 信号 处 理 函 数 将 取得 
这 个 子 进程 的 进程 ID。 父 进程 通过 打开 相应 的 套 接 字 在 select 所 用 描述 符 集 中 对 应 的 位 ， 使 得 
该 套 接 字 重新 成 为 select 的 候选 套 接 字 。 

数据 报 服 务 器 必须 接管 其 套 接 字 直 至 自身 终止 ， 以 防 inetad 在 此 期 间 让 select 检 查 该 套 接 
字 的 可 读 性 (也 就 是 等 待 来 自任 何 客 户 的 男 一 个 数据 报 ), 这 是 因为 每 个 数据 报 服 务 器 只 有 一 个 
套 接 字 ， 而 不 像 每 个 TCP 服 务 器 那样 既 有 一 个 监听 套 接 字 ， 对 于 每 个 客户 又 各 有 一 个 已 连接 套 
接 字 。 如 果 ineta 不 关闭 对 于 某 个 数据 报 套 接 字 的 可 读 条 件 检查 ， 而 且 父 进程 (ineta) 先 于 服 
务 该 套 接 字 的 子 进程 执行 ， 那 么 引发 本 次 fork 的 那个 数据 报 仍然 在 套 接 字 接 收 缓冲 区 中 ， 导 致 
select 再 次 返回 可 读 条 件 ， 致 使 inetd 再 次 fork 另 一 个 (不 必要 的 ) 子 进程 。inetG 必 须 在 得 
知 子 进程 己 从 套 接 字 接收 队列 中 读 走 该 数据 报 之 前 忽略 这 个 数据 报 套 接 字 。ineta 得 知 子 进程 
何 时 使 用 完 其 套 接 字 的 手段 是 通过 接收 表明 子 进程 已 终止 的 SITGCHLD 信 和 号。 我们 将 在 22.7 节 展示 
这 样 的 一 个 例子 。 

图 2-18 中 介绍 的 5 个 标准 因特网 服务 是 由 ineta 内 部 处 理 的 (见习 题 13.2)。 

既然 替 一 个 TCP 服 务 器 调用 accept 的 进程 是 inetad, 由 ineta 启 动 的 真正 服务 器 通常 通过 调 
用 getpeername 获 取 客 户 的 IP 地 址 和 端口 号 。 回 顾 图 4-18， 我 们 知道 fork 和 exec 发 生 之 后 (就 
如 inetd)， 真 正 的 服务 器 获悉 客户 身份 的 唯一 方法 是 调用 getpeername。 

ineta 通 常 不 适用 于 服务 密集 型 服务 器 ， 其 中 值得 注意 的 有 邮件 服务 器 和 Web 服 务 器 。 举 
例 来 说 , 我 们 在 4.8 节 介绍 过 的 senamail 通 常 作为 一 个 标准 的 并 发 服务 器 来 运行 。 这 种 模式 下 每 
个 客户 连接 的 进程 控制 开销 仅仅 是 一 个 fork， 而 由 inetd 启 动 的 每 个 TCP 服 务 器 的 开销 是 一 个 
fork 加 一 个 exec。 而 Web 服 务 器 则 使 用 多 种 技术 把 每 个 客户 连接 的 进程 控制 开销 降低 到 最 小 ， 
具体 在 第 30 章 中 讨论 。 


在 Linux 等 系统 上 ， 称 为 xineta 的 扩展 式 因 特 网 服务 守护 进程 业已 常见 。xineta 提 供与 
ineta 一 致 的 基本 服务 ， 不 过 还 提供 数目 众多 的 其 他 特性 ， 包 括 根据 客户 的 地 址 登记 、 接 受 
或 拒绝 连接 的 选项 ， 每 个 服务 一 个 配置 文件 的 做 法 ， 等 等 . 我 们 不 深入 讨论 xinetd， 因 为 它 
背后 的 基本 超级 服务 器 概念 和 inetd 是 一 样 的 。 
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图 13-11 给 出 了 一 个 名 为 aaemon_ineta 的 函数 ， 可 用 于 已 知 由 inetq 启 动 的 服务 器 程序 中 。 
lib/daemon inetd.c 
#include "unp.h" 
#include <syslog.h> 


1 
2 
3 extern int daemon_proc; /* defined in error.c */ 
4 void 

5 daemon_inetd(const char *pname, int facility) 

6 í 

4 

8 

9 


daemon_proc = 1; /* for our err XXX() functions */ 
openlog(pname, LOG_PID, facility); 





lib/daemon_inetd.c 
图 13-11 daemon inetaBQAk: 守护 进程 化 由 inete 运 行 的 进程 
本 函数 与 daemon_init 相 比 显得 微不足道 ， 因 为 所 有 守护 进程 化 步骤 已 由 ineta 在 启动 时 
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执行 。 本 函数 的 任务 仅仅 是 为 错误 处 理 函 数 〈 图 D-3) 设置 Gaemon_proc 标 志 ， 并 以 与 图 13-4 中 
的 调用 相同 的 参数 调用 openlog。 
例子 : 由 inetd 作为 守护 进程 启动 的 时 间 获 取 服 务 器 程序 
图 13-12 给 出 的 时 间 获 取 服 务 器 程序 修改 自 图 13-5， 它 可 以 由 ineta 启 动 。 





——— inetd/daytimetcpsrv3.c 

1 #include "unp.h* 

2 *include <time.h> 

3 int 

4 main{int argc, char **argv) 

S-t 

6 Socklen t len; 

7 struct sockaddr *cliaddr; 

B char buff [MAXLINE] ; 

9 time t ticks; 

10 daemon inetd(argv[0], 0); 

11 cliaddr = Malloc(sizeof(struct sockaddr_storage) ); 

12 len = sizeof{struct sockaddr_storage) ; 

13 Getpeername(0, cliaddr, &len); 

14 err_msg ("connection from $s", Sock ntop(cliaddr, len)); 
15 ticks = time (NULL); 

16 snprintf (buff, sizeof (buff), "%.24s\r\n", ctime(&ticks)); 
17 Write(0, buff, strlen(buff)); 

18 Close(0); /* close TCP connection */ 
19 exit(0); 
20 ) 

-一 一 一 inelddaytimetcpsrv 了 c 


图 13-12 ”可 由 ineta 启 动 的 协议 无 关 时 间 获 取 服 务 器 程序 


这 个 程序 有 两 个 大 的 改动 。 首 先 ， 所 有 套 接 字 创 建 代码 ( 即 对 tcp_1iisten 和 accept 的 调 
用 ) 都 消失 了 。 这 些 步骤 改 由 ineta 执 行 ， 我 们 使 用 描述 符 0〈 标 准 输入 ) 指 代 已 由 ineta 接 受 
的 TCP 连 接 。 其 次 , 无 限 的 for 循 环 也 消失 了 , 因为 本 服务 器 程序 将 针对 每 个 客户 连接 启动 一 次 。 
服务 完 当前 客户 后 进程 就 终止 。 
调用 getpeername 
11-14 既然 未 曾 调 用 ktcp_listen， 我 们 不 知道 由 它 返回 的 套 接 字 地 址 结构 的 大 小 ， 而 且 既 
然 未 曾 调用 accept， 我 们 也 不 知道 客户 的 协议 地 址 。 我 们 于 是 使 用 sizeof (struct 
sockaddr_storage) 给 套 接 字 地 址 结构 分 配 一 个 缓冲 区 ， 并 以 描述 符 0 为 第 一 个 参数 
调用 getpeername。 
为 了 在 我 们 的 Solaris 系 统 上 运行 本 例子 程序 ， 我 们 首先 赋予 本 服务 一 个 名 字 和 一 个 端口 ， 
将 把 如 下 行 加 到 /etc/services 文 件 中 : 
mydaytime 9999/tcp 
接着 把 如 下 行 加 到 /etc/inetd.conf 文 件 中 : 


mydaytime stream tcp nowait andy 
/home/andy /daytimetcpsrv3 daytimetcpsrv3 


(本 行 太 长 已 做 折 行 处 理 。) 把 可 执行 文件 放 到 指定 的 位 置 后 ， 我 们 给 ineta 发 送 一 个 SIGHUP 信 
号 ,告知 它 重新 读 入 其 配置 文件 。 紧 接着 我 们 执行 het stat 命 令 验证 inetd 已 在 TCP 端 口 9999 上 
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创建 了 一 个 监听 套 接 字 : 
solaris % netstat -na | grep 9999 
*.9999 *o* 0 0 49152 0 LISTEN 
然后 从 另 一 个 主机 访问 这 个 服务 器 : 


linux $ telnet solaris 9999 
Trying 192.168.1.20... 

Connected to solaris. 

Escape character is '^]'. 

Tue Jun 10 11:04:02 2003 
Connection closed by foreign host. 


/Var/adm/messages 文 件 ( 这 是 根据 /etc/syslog.conf 文 件 ， 将 LOG_USER 设 施 的 消息 登 
记 到 其 中 的 文件 ) 中 有 如 下 的 日 志 消 息 ， 

Jun 10 11:04:02 solaris daytimetcpsrv3[28724]: connection from 

192.168.1.10.58145 


WET A RE A ANER A EE 


EAR D^ n $ — M 


守护 进程 是 在 后 台 运行 并 独立 于 所 有 终端 控制 的 进程 .许多 网 络 服务 器 作为 守护 进程 运行 。 


守护 进程 产生 的 所 有 输出 通常 通过 调用 syslog 函 数 发 送 给 sysloga 守 护 进程 。 系 统管 理 员 可 根 
据 发 送 消 息 的 守护 进程 以 及 消息 的 严重 级 别 ， 完 全 控制 这 些 消息 的 处 理 方式 。 

启动 任意 一 个 程序 并 让 它 作 为 守护 进程 运行 需要 以 下 步骤 : 调用 fork 以 转 到 后 台 运行 ， 调 
用 setsid 建 立 一 个 新 的 POSIX 会 话 并 成 为 会 话 头 进程 ,再 次 fork 以 避免 无 意 中 获得 新 的 控制 终 
端 ， 改 变 工作 目录 和 文件 创建 模式 掩 码 ， 最 后 关闭 所 有 非 必要 的 描述 符 。 我 们 的 aaemon_init 
函数 处 理 所 有 这 些 细节 。 

许多 Unix 服 务 器 由 ineta 守 护 进程 启动 。 它 处 理 全 部 守护 进程 化 所 需 的 步骤 ， 当 启动 真正 
的 服务 器 时 ， 套 接 字 已 在 标准 输入 、 标 准 输出 和 标准 错误 输出 上 打开 。 这 样 我 们 无 需 调用 
socket、bind、1isten 和 accpet， 因 为 这 些 步骤 已 由 inetdq 处 理 。 


PT NEN E E 








13.1 图 13-5 中 如 果 我 们 把 Gaemon_init 调 用 挪 到 检查 命令 行 参数 之 前 ， 使 得 err_gquit 调 用 位 于 
daemon_init 调 用 之 后 ， 那 会 发 生 什 么 ? 

13.2 对 于 由 inetd 内 部 处 理 的 5 个 服务 (图 2-18)， 考 虑 每 个 服务 各 有 一 个 TCP 版 本 和 一 个 UDP 版 本 ， 这 
样 总 共 10 个 服务 器 的 实现 中 ， 哪 些 用 到 了 fork 调 用 ， 哪 些 不 需要 fork 调 用 ? 

13.3 ”如果 我 们 创建 一 个 UDP 套 接 字 ， 把 端口 ?7〈 图 2-18 中 标准 echo 服 务 器 所 用 端口 ) 揪 绑 到 其 上 ， 然 后 
把 一 个 UDP 数据 报 发 送 到 某 个 标准 chargen 服 务 器 ， 将 会 发 生 什么 ? 

13.4 Solaris 2.x 关 于 inetd 的 手册 页 面 讲述 了 一 个 -t 标 志 ， 它 会 使 ineta 调 用 syslog (所 用 设施 为 
LOG_DAEMON， 级 别 为 LOG_NOTICE) 为 inetd 处 理 的 任何 TCP 服 务 登记 客户 的 下地 址 和 端口 号 。 
inetd 是 如 何 取 得 本 信息 的 ? 

该 手册 页 面 还 说 ineta 不 能 为 所 处 理 的 UDP 服务 执行 同样 操作 。 为 什么 ?” 有 什么 办 法 可 以 绕 过 对 于 
UDP 服务 的 这 个 限制 呢 ? 
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本 章 讨论 我 们 笼统 地 归 为 “高 级 WO” 的 各 个 函数 和 技术 。 首 先是 在 1/O 操 作 上 设置 超时 ， 
这 里 有 三 种 方法 。 然 后 是 readG 和 write 这 两 个 函数 的 三 个 变 体 ，recv 和 send 允 许 通 过 第 四 个 参 
数 从 进程 到 内 核 传 递 标 志 ; readv 和 writev 允 许 指定 往 其 中 输入 数据 或 从 其 中 输出 数据 的 缓冲 
区 向 量 ; recvnsg 和 sendmsg 结 合 了 其 他 IO 函数 的 所 有 特性 ， 并 具备 接收 和 发 送 辅助 数据 的 新 
能 力 。 

我 们 还 在 本 章 中 考虑 如 何 确定 套 接 字 接收 缓冲 区 中 的 数据 量 ， 如 何在 套 接 字 上 使 用 C 的 标 
准 IO 函 数 库 ， 并 讨论 等 待 事件 的 一 些 高 级 方法 。 





14.2” 套 接 字 超时 


在 涉及 套 接 字 的 1/O 操 作 上 设置 超时 的 方法 有 以 下 3 种 。 

(1) 调用 alarm， 它 在 指定 超时 期 满 时 产生 sIGALRM 信 号 。 这 个 方法 涉及 信号 处 理 ， 而 信号 
处 理 在 不 同 的 实现 上 存在 差异 ， 而 且 可 能 干扰 进程 中 现 有 的 alarm 调 用 。 

(2) 在 select 中 阻塞 等 待 JO 〈select 有 内 置 的 时 间 限 制 )， 以 此 代替 直接 阻塞 在 read 或 
write 调用 上 。 

(3) 使 用 较 新 的 So_RCVTIMEO 和 soO_sNDTIMEO 套 接 字 选 项 。 这 个 方法 的 问题 在 于 并 非 所 有 实 
现 都 支持 这 两 个 套 接 字 选 项 。 

上 述 三 个 技术 都 适用 于 输入 和 输出 操作 〈 例 如 reaa、write 及 其 诸如 recvfrom、senato 
之 类 的 变 体 )， 不 过 我 们 依然 期 待 可 用 于 connect 的 技术 ， 因 为 TCP 内 置 的 connect 超 时 相当 长 
《和 典型 值 为 75 秒 钟 )。select 可 用 来 在 connect 上 设置 超时 的 先决 条 件 是 相应 套 接 字 处 于 非 阻塞 
模式 〈 详 见 16.3 节 )， 而 那 两 个 套 接 字 选 项 对 connect 并 不 适用 。 我 们 还 指出 ， 前 两 个 技术 适用 
于 任何 描述 符 ， 而 第 三 个 技术 仅仅 使 用 于 套 接 字 描 述 符 。 

我 们 接 下 去 给 出 使 用 这 三 个 技术 的 例子 。 


14.2.1 使 用 SIGALRM Jj connect 设置 超时 


图 14-1 给 出 了 我 们 的 connect_timeo 函 数 ， 它 以 由 调用 者 指定 的 超时 上 限 调用 connect。 
它 的 前 3 个 参数 用 于 调用 connect， 第 四 个 参数 是 等 待 的 秒 数 。 
建立 信号 处 理 函 数 
8 为 SIGALRM 建 立 一 个 信号 处 理 函 数 。 现 有 信号 处 理 函 数 〈 如 果 有 的 话 ) 得 以 保存 ， 以 
便 在 本 函数 结束 时 恢复 它 。 
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——lib/connect_timeo.c 


1 #include *unp.h" 

2 static void connect_alarm(int); 

3 int 

4 connect_timeo(int sockfd, const SA *saptr, socklen_t salen, int nsec) 
5 { 

6 Sigfunc *sigfunc; 

7 int n; 

8 sigfunc - Signal(SIGALRM, connect alarm); 

9 if (alarm(nsec) != 0) 

10 err msg("connect, timeo: alarm was already set"); 

11 if ( (n = connect (sockfd, saptr, salen)) < 0) ( 

12 close(sockíd); 

13 if (errno -- EINTR) 

14 errno = ETIMEDOUT; 

15 ) 

16 alarm(0); /* turn off the alarm */ 

17 Signal(SIGALRM, sigfunc); /* restore previous signal handler */ 
18 return (n); 

19 ) 


20 static void 

21 connect alarm(int signo) 

22 { 

23 return; /* just interrupt the connect() */ 


24 } 
lib/connect timeo.c 





图 14-1 带 超时 的 connect 








设置 报警 (HP) 

9-10 ”把 本 进程 的 报警 时 钟 设 置 成 由 调用 者 指定 的 秒 数 。 如 果 此 前 已 经 给 本 进程 设置 过 报警 
时 钟 ， 那 么 alarm 的 返回 值 是 这 个 报警 时 钟 的 当前 剩余 秒 数 ， 和 否则 alarm 的 返回 值 为 0。 
若是 前 一 种 情况 , 我 们 还 显示 一 个 警告 信息 , 因为 我 们 推翻 了 先前 设置 的 报警 时 钟 ( 见 
习题 14.2)。 

调用 connect 
11-15 调用 connect， 如 果 本 调用 被 中 断 〈 即 返回 BINTR 错 误 )， 那 就 把 errno 值 改 设 为 
ETIMEOUT， 同 时 关闭 套 接 字 ， 以 防 三 路 握手 继续 进行 。 


关闭 alarm 并 恢复 原来 的 信号 处 理 函 数 

16-18 ”通过 以 0 为 参数 值 调用 alarm 关 闭 本 进程 的 报警 时 钟 ， 同 时 恢复 原来 的 信号 处 理 函 数 
(如 果 有 的 话 )。 

处 理 SIGALRM 


20-24 ”信号 处 理 函 数 只 是 简单 地 返回 。 我们 设想 本 return 语 名 将 中 断 进程 主 控制 流 中 那个 未 
决 的 connect 调 用 ， 使 得 它 返 回 一 个 EINTR 错 误 。 回 顾 我 们 的 signal 函 数 (5-6), 
当 被 捕获 的 信号 为 SITGaALRM 时 ，signal 函 数 不 设置 sa_RESTART 标 志 。 
就 本 例子 我 们 指出 两 点 ， 第 一 点 是 使 用 本 技术 总 能 减少 connect 的 超时 期 限 ， 但 是 无 法 延 
长 内 核 现 有 的 超时 。 源 自 Berkeley 的 内 核 中 connect 的 超时 通常 为 73s。 在 调用 我 们 的 函数 时 ， 
可 以 指定 一 个 比 75 小 的 值 (如 10)， 但 是 如 果 指 定 一 个 比 75 大 的 值 (如 80)， 那 么 connect 仍 将 
在 75s 后 发 生 超 时 。 
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另 一 点 是 我 们 使 用 了 系统 调用 (connect) 的 可 中 断 能 力 ， 使 得 它们 能 够 在 内 核 超时 发 生 
之 前 返回 。 这 一 点 不 成 问题 的 前 提 是 : 我 们 执行 的 是 系统 调用 ， 并 且 能 够 直接 处 理由 它们 返回 
的 EINTR 错 误 。 我 们 将 在 29.7 节 碰 到 一 个 也 执行 系统 调用 的 库 函 数 ， 不 过 系统 调用 返回 EINTR 时 
这 个 库 函 数 重新 执行 同一 个 系统 调用 。 在 这 种 情形 下 我 们 仍 能 使 用 STGaLRM， 不 过 将 在 图 29-10 
中 看 到 ， 我 们 还 不 得 不 使 用 sigsetjmp 和 siglongjmp 以 绕 过 函数 库 对 于 EINTR 的 忽略 。 

尽管 本 例子 相当 简单 , 但 在 多 线程 化 程序 中 正确 使 用 信号 却 非常 困难 ( 见 第 26 章 )。 因 此 我 
们 建议 只 是 在 未 线程 化 或 单线 程 化 的 程序 中 使 用 本 技术 。 


14.2.2 使 用 SIGALRM 4 recvfrom 设置 超时 


oe 图 14-2 改 写 自 图 8-8 中 的 Gg_cli 函 数 ， 新 的 Gg_c1i 函 数 通 过 调用 alarm 使 得 一 旦 在 5 秒 钟 内 
383| ” 收 不 到 任何 应 答 就 中 断 recvfrom。 


e —————— — — — — —— — advio/dgclitimeo3.c 
1 #include "unp.h* 


2 static void sig alrm(int); 


3 void 

4 dg Ccli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
51 

6 int n; 

7 char sendline[MAXLINE], recvline[MAXLINE + 1]; 

8 Signal(SIGALRM, sig alrm); 

9 while (Fgets(sendline, MAXLINE, fp) != NULL) { 

10 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
11 alarm(5); 

12 if ( (n = recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL)) < 0) ( 
13 if (errno == EINTR) 

14 fprintf(stderr, "socket timeout\n") ; 

15 else i 

16 err sys("recvfrom error"); 

17 ) else ( 

18 alarm(0); 

19 recvline[n] = 0; /* null terminate */ 

20 Fputs(recvline, stdout); 

21 } 

22 ) 

23 ) 


24 static void 
25 sig alrm(int signo) 
26 ( 
27 return; /* just interrupt the recvfrom() */ 
28 ) 
M M —  — — advio/dgclitimeo3.c 


图 14-2 ”使 用 alarm 超 时 recvfrom 的 aa_cli 函 数 


处 理 来 自 recvfrom 的 超时 
8-22 ”为 SIGALRM 建 立 一 个 信号 处 理 函 数 ， 并 在 每 次 调用 recvfrom 前 通过 调用 alarm 设 置 一 
个 5 秒 钟 的 超时 。 如 果 recvfrom 被 我 们 的 信号 处 理 函 数 中 断 了 ， 那 就 输出 一 个 信息 并 继 
续 执行 。 如 果 读 到 一 行 来 自 服务 器 的 文本 ， 那 就 关 掉 报警 时 钟 并 输出 服务 器 的 应 答 。 
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SIGALRM 信 号 处 理 函 数 
24-28 ”信号 处 理 函 数 只 是 简单 地 返回 ， 以 中 断 被 阻塞 的 recvfrom。 

本 例子 工作 正常 ， 因 为 每 次 调用 alarm 设 置 报警 时 钟 后 ， 期 待 读 取 的 只 是 单个 应 答 。 我 们 
将 在 20.4 节 使 用 同样 的 技术 ， 然 而 由 于 每 个 报警 时 钟 对 应 读 取 多 个 应 答 ， 我 们 还 得 处 理 存在 于 
其 中 的 竞争 条 件 。 


14.2.3 使 用 select 为 recvfrom 设置 超时 


图 14-3 示 例 了 设置 超时 的 第 二 个 技术 (使 用 select )。 这 个 名 为 readable_timeo 的 函数 等 
待 一 个 描述 符 最 多 在 指定 的 秒 数 内 变 为 可 读 。 


~ — —— lib/readable timeo.c 





1 #include "unp.h" 

2 int 

3 readable timeo(int fd, int sec) 

4 í 

5 td set rset; 

6 struct timeval tv; 

7 FD ZERO(&rset); 

8 FD SET(fd, &rset); 

9 tv.tv sec = sec; 

10 tv.tv, usec - 0; 

11 return(select(fd«1, &rset, NULL, NULL, &tv)); 
12 /* » 0 if descriptor is readable */ 
13 } 


lib/readable timeo.c 


14-3 readable_timeo 函 数 : 等 待 一 个 描述 符 变 为 可 读 


准备 select 的 参数 
7-10 ”在 读 描述 符 集中 打开 与 调用 者 给 定 描述 符 对 应 的 位 。 把 调用 者 给 定 的 等 待 秒 数 设置 在 
一 个 timeval 结 构 中 。 
阻塞 在 select 上 


11-12 ” select 等 待 该 描述 符 变 为 可 读 ,或 者 发 生 超时 。 本 函数 的 返回 值 就 是 select 的 返回 值 : 
出 错时 为 -1， 超 时 发 生 时 为 0， 奉 则 返回 的 正 值 给 出 已 就 绪 描 述 符 的 数目 。 
本 函数 不 执行 读 操 作 ， 它 只 是 等 待 给 定 描述 符 变 为 可 读 。 因 此 本 函数 适用 于 任何 类 型 的 套 
接 字 ， 既 可 以 是 TCP 也 可 以 是 UDP。 
我 们 可 以 轻而易举 地 创建 等 待 描述 符 变 为 可 写 的 名 为 writeable_timeo 的 类 似 函 数 。 
我 们 在 图 14-4 中 使 用 这 个 函数 ， 它 改写 自 图 8-8 中 的 Gg_cli 函 数 。 这 个 新 版 本 只 是 在 
readable_timeo 返 回 一 个 正 值 时 才 调 用 recvfrom。 











—— HE advio/dgclitimeol.c 
1 #include "unp.h" 
2 void 
3 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
4t 
5 int n; 
6 char sendline[MAXLINE], recvline[MAXLINE + 1]; 





图 14-4 ”调用 readable_timeo 设 置 超时 的 Gg_c1i 函 数 
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7 while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 
8 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
9 if (Readable timeo(sockfd, 5) -- 0) ( 
10 fprintf(stderr, "socket timeout*n"); 
11 ) else ( 
12 n = Recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL); 
13 recvline[n] - 0; /* null terminate */ 
14 Fputs(recvline, stdout); 
15 ) 
16 ) 
17 ) 
advio/dgclitimeol.c 
14-4 (H5) 


直到 readable_timeo 告 知 所 关注 的 描述 符 已 变 为 可 读 后 我 们 才 调 用 recvfrom， 这 一 点 保 
证 recvfrom 不 会 阻塞 。 


14.2.4 使 用 so ncvTIMEO 套 接 字 选项 为 recvfrom 设置 超时 


最 后 一 个 例子 展示 so_RCVTITMEO 套 接 字 选项 如 何 设置 超时 。 本 选项 一 旦 设置 到 某 个 描述 符 
(包括 指定 超时 值 )， 其 超时 设置 将 应 用 于 该 描述 符 上 的 所 有 读 操 作 。 本 方法 的 优势 就 体现 在 一 
次 性 设置 选项 上 , 而 前 两 个 方法 总 是 要 求 我 们 在 欲 设置 时 间 限 制 的 每 个 操作 发 生 之 前 做 些 工 作 。 
本 套 接 字 选 项 仅仅 应 用 于 读 操作 ， 类 似 的 so_SNDTIMEo 选 项 则 仅仅 应 用 于 写 操作 ， 两 者 都 不 能 
用 于 为 connect 设 置 超时 。 

图 14-5 是 使 用 so_RcVTIMEO 套 接 字 选 项 的 另 一 个 版 本 的 dg_cli 函 数 。 


advio/dgclitimeo2.c 

1 #include "unp.n" 

2 void 

3 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 

4 í 

5 int n; 

6 char sendline[MAXLINE], recvline[MAXLINE + 1]; 

7 struct timeval tv; 

8 tv.tv sec = 5; 

9 tv.tv_usec = 0; 

10 Setsockopt (sockfd, SOL SOCKET, SO RCVTIMEO, &tv, sizeof(tv)); 

11 while (Fgets(sendline, MAXLINE, fp) !- NULL) { 

12 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
13 n - recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL); 

14 if (n« 0) { 

15 if (errno -- EWOULDBLOCK) ( 

16 fprintf(stderr, "socket timeout\n"); 

17 cont inue; 

18 } else 

19 err_sys("recvfrom error"); 
20 } 

21 recvline[n] = 0; /* null terminate */ 
22 Fputs(recviine, stdout); 

23 ) 

24 ) 

advio/dgclitimeo2.c 


图 14-5 ”使 用 so_RCVTIMEO 套 接 字 选项 设置 超时 的 dag_cli 函 数 
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设置 套 接 字 选项 
8-10 setsockopt 的 第 四 个 参数 是 指向 某 个 timeval 结 构 的 一 个 指针 ， 其 中 填 入 了 期 望 的 超 
时 值 。 
测试 超时 


15-17 ”如 果 L/O 操 作 超 时 ， 其 函数 (这 里 是 recvfrom) 将 返回 一 个 EWoOULDBLOCK 错 误 。 


14.3 recv 和 send 函数 
这 两 个 函数 类 似 标 准 的 reaa 和 write 函数 ， 不 过 需要 一 个 额外 的 参数 。 





#include <sys/socket .h> 


ssize t recv(int sockfd, void *buff, size t nbytes, int flags); 


ssize t send(int sockfd, const void *buff, size t nbytes, int flags); 


返回 ， 若 成 功 则 为 读 入 或 写 出 的 字 节 数 ， 若 出 错 则 为 -1 386 


recv 和 send 的 前 3 个 参数 等 同 于 read 和 write 的 3 个 参数 。flags 参 数 的 值 或 为 0, 或 为 图 14-6 387 
列 出 的 一 个 或 多 个 常 值 的 多 辑 或 。 





— | 绕 过 路 由 表 查 找 
仅 本 操作 非 阻塞 


发 送 或 接收 带 外 数据 
窥 看 外 来 消息 
MSG, WATTALL 等 待 所 有 数据 


图 14-6 ”IO 函数 的 1ags 人 参数 





MSG_DONTROUTE ”本 标志 告知 内 核 目 的 主机 在 某 个 直接 连接 的 本 地 网 络 上 ， 因 而 无 需 执行 
路 由 表 查 找 。 我 们 已 随 so_DoONTROUTE 套 接 字 选项 (7.5 节 ) 提供 了 本 特 
性 的 额外 信息 。 这 个 既 可 以 使 用 MsG_poNTROUTE 标 志 针对 单个 输出 操作 
开启 ， 也 可 以 使 用 so_poNTROUTE 套 接 字 选项 针对 某 个 给 定 套 接 字 上 的 
所 有 输出 操作 开启 。 

MSG DONTWAIT ”本 标志 在 无 需 打 开 相应 套 接 字 的 非 阻塞 标 志 的 前 提 下 , 把 单个 VO 操作 临 
时 指定 为 非 阻塞 ,接着 执行 LO 操作 ,然后 关闭 非 阻塞 标志 。 我 们 将 在 第 
16 章 中 介绍 非 阻塞 式 IO 以 及 如 何 打开 或 关闭 某 个 套 接 字 上 所 有 LO 操作 
的 非 阻 塞 标志 。 

这 个 标志 是 随 Net/3 新 增设 的 ， 可 能 并 非 所 有 系统 都 支持 它 。 


MSG_OOB 对 于 senda， 本 标志 指明 即将 发 送 带 外 数据 。 正 如 我 们 将 在 第 24 章 中 讲述 
的 那样 ，TCP 连 接 上 只 有 一 个 字 节 可 以 作为 带 外 数据 发 送 。 对 于 recv， 
本 标志 指明 即将 读 入 的 是 带 外 数据 而 不 是 普通 数据 。 

MSG_PEEK 本 标志 适用 于 recv 和 recvfrom， 它 允许 我 们 查看 已 可 读 取 的 数据 ， 而 
且 系 统 不 在 recv 或 recvfrom 返 回 后 丢弃 这 些 数据 。 我 们 将 在 14.7 节 详细 
讨论 这 个 标志 。 
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MSG_WAITALL 本 标志 随 4.3BSD Reno 引 入 。 它 告知 内 核 不 要 在 尚未 读 入 请 求 数目 的 字 
节 之 前 让 一 个 读 操作 返回 。 如 果 系 统 支持 本 标志 , 我 们 就 可 以 省 掉 reaan 
函数 〈 图 3-15)， 而 替 之 以 如 下 的 宏 ， 


#define readn(fd, ptr, n) recv(fd, ptr, n, MSG WAITALL) 


即使 指定 了 MSG_WAITALL， 如 果 发 生 下 列 情况 之 一 : (a) 捕 获 一 个 信和 号， 
(b) 连 接 被 终止 ，(c) 套 接 字 发 生 一 个 错误 ， 相 应 的 读 函 数 仍 有 可 能 返回 比 
所 请 求 字 节 数 要 少 的 数据 。 
另 有 一 些 标 志 适 用 于 TCP/IP 以 外 的 协议 族 。 举 例 来 说 ，OSI 的 传输 层 是 基于 记录 的 (不 像 
TCP 那 样 是 一 个 字 节 流 )， 其 输出 操作 支持 MsG_EOR 标 志 ， 指 示 逻 辑 记录 的 结束 。 
Jasgs 人 参数 在 设计 上 存在 一 个 基本 问题 : 它 是 按 值 传递 的 ， 而 不 是 一 个 值 -结果 参数 。 因 此 它 
只 能 用 于 从 进程 向 内 核 传 递 标 志 。 内 核 无 法 向 进程 传 回 标志 。 对 于 TCP/IP 协 议 这 一 点 不 成 问题 ， 
因为 TCP/IP 几 乎 不 需要 从 内 核 向 进程 传 回 标志 。 然 而 随 着 OSI 协议 被 加 到 4.3BSD Reno 中 ， 却 提 
出 了 随 输 入 操作 向 进程 返 送 MsG_BoR 标 志 的 需求 。4.3BSD Reno 做 出 的 决定 是 保持 常用 输入 函数 
(recv 和 recvfrom) 的 参数 不 变 ， 而 改变 recvmsg 和 sendmsg 所 用 的 msghdqr 结 构 。 我 们 将 在 14.5 
节 中 看 到 该 结构 新 增 了 一 个 整数 nsg_flags 成 员 ， 而 且 既 然 该 结构 按 引用 传递 ， 内 核 就 可 以 在 
返回 时 修改 这 些 标 志 。 这 个 决定 同时 意味 着 如 果 一 个 进程 需要 由 内 核 更 新 标志 ， 它 就 必须 调用 
recvmsg, 而 不 是 调用 recv 或 recvfrom。 


WI ER D: s rpm tev El opti 








这 两 个 函数 类 似 reaa 和 write， 不 过 readqv 和 writev 允 许 单个 系统 调用 读 入 到 或 写 出 自 一 
个 或 多 个 缓冲 区 。 这 些 操作 分 别称 为 分 散 读 〈scatter read) 和 集中 写 〈gather write)， 因 为 来 自 
读 操作 的 输入 数据 被 分 散 到 多 个 应 用 缓冲 区 中 ， 而 来 自 多 个 应 用 缓冲 区 的 输出 数据 则 被 集中 提 
供给 单个 写 操作 。 


*include «sys/uio.h» 


SSize t readv(int filedes, const struct iovec *iov, int iovent); 


Ssize t writev(int filedes, const struct iovec *iov, int iovcnt) ; 


返回 : 若 成 功 则 为 读 入 或 写 出 的 字 节 数 ， 若 出 错 则 为 -1 





这 两 个 函数 的 第 二 个 参数 都 是 指向 某 个 iovec 结 构 数组 的 一 个 指针 , 其 中 iovec 结 构 在 头 文 
件 <sys/uio .h> 中 定义 : 


struct iovec { 
void *iov_base; /* starting address of buffer */ 
size t iov len; /* size of buffer */ 

}; 


这 里 给 出 的 jovec 结 构 其 各 个 成 员 的 数据 类 型 符合 POSIX 规 范 。 你 可 能 会 碰 到 把 
iovec_base 成 员 定 义 为 char *， 把 iov_len 成 员 定义 为 int 的 实现 。 


iovec 结 构 数组 中 元 素 的 数目 存在 某 个 限制 ， 具 体 取 决 于 实现 。 举 例 来 说 ，4.3BSD 和 Linux 
均 最 多 允许 1024 个 ， 而 HP-UX 最 多 允许 2100 个 。POSIX 要 求 在 头 文件 <sys/uio.h> 中 定义 
IOV_MRAX 常 值 ， 而 且 其 值 至 少 为 16。 
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readv 和 writev 这 两 个 函数 可 用 于 任何 描述 符 ， 而 不 仅 限于 套 接 字 。 另 外 writev 是 一 个 原 
子 操作 ， 意 味 着 对 于 一 个 基于 记录 的 协议 〈 例 如 UDP) 而 言 ， 一 次 writev 调 用 只 产生 单个 UDP 
数据 报 。 

我 们 在 7.9 节 随 TCP_NODELAY 套 接 字 选项 提 到 过 writev 的 一 个 用 途 。 当 时 我 们 说 一 个 4 字 节 
的 write 跟 一 个 396 字 节 的 write 可 能 触发 Nagle 算 法 ， 首 选 办 法 之 一 是 针对 这 两 个 缓冲 区 调用 


writev. 


vies pem "et 了 和 ps a JEN RESP 





这 两 个 函数 是 最 通用 的 /0 函数 。 实 际 上 我 们 可 以 把 所 有 read、readv、recv 和 recvfrom 
调用 替换 成 recvmsg 调 用 。 类 似 地 ， 各 种 输出 函数 调用 也 可 以 替换 成 sendmsg 调 用 。 


*include «sys/socket.h» 


ssize_t recvmsg(int sockfd, struct msghdr *msg, int flags); 


ssize_t sendmsg(int sockfd, struct msghdr *msg, int flags); 


返回 : 车 成 功 则 为 读 入 或 写 出 的 字 节 数 ， 若 出 错 则 为 -1 





这 两 个 函数 把 大 部 分 参数 封装 到 一 个 msghdar 结 构 中 : 


struct msghdr { 


void *msg name; /* protocol address */ 

Ssocklen t msg namelen; /* size of protocol address */ 
struct iovec *msg iov; /* scatter/gather array */ 

int msg iovien; /* # elements in msg iov */ 

void *msg. control; /* ancillary data (cmsghdr struct) */ 
socklen_t msg_controllen; /* length of ancillary data */ 

int msg flags; /* flags returned by recvmsg() */ 


这 里 给 出 的 msghdr 结 构 符合 POSIX 规 范 . 有 些 系统 仍然 使 用 本 结构 源 自 4.2BSD 的 较 旧 版 
本 。 这 个 较 旧 的 结构 没有 msg_flags 成 员 ， 而 且 msg_contro1 和 msg_controllen 成 员 分 别 
被 称 为 msg_accrights 和 msg_accrightslen. 这 个 较 旧 结构 唯一 支持 的 辅助 数据 形式 用 于 
传递 文件 描述 符 ( 称 为 访问 权限 )。 


msg_name 和 msg_namelen 这 两 个 成 员 用 于 套 接 字 未 连接 的 场合 (譬如 未 连接 UDP 套 接 字 )。 
它们 类 似 recvfrom 和 senato 的 第 五 个 和 第 六 个 参数 : msg_name 指 向 一 个 套 接 字 地 址 结构 ， 调 
用 者 在 其 中 存放 接收 者 〈 对 于 sendamsg 调 用 ) 或 发 送 者 (对 于 recvmsg 调 用 ) 的 协议 地 址 。 如 果 
无 需 指明 协议 地 址 〈 例 如 对 于 TCP 套 接 字 或 已 连接 UDP 套 接 字 )，msg_name 应 置 为 空 指针 。 
msg_namelen 对 于 sendmsg 是 一 个 值 参 数 ， 对 于 recvmsg 却 是 一 个 值 -结果 参数 。 

msg_iov 和 msg_iovlen 这 两 个 成 员 指 定 输入 或 输出 缓冲 区 数组 ( 即 iovec 结 构 数 组 )， 类 似 
readv 或 writev 的 第 二 个 和 第 三 个 参数 , msg_control 和 msg_controllen 这 两 个 成 员 指 定 可 选 
的 辅助 数据 的 位 置 和 大 小 。msg_controllen 对 于 recvmsg 是 一 个 值 -结果 参数 。 我 们 将 在 14.6 
节 讲 解 辅助 数据 。 

对 于 recvmsg 和 sendmsg， 我 们 必须 区 别 它们 的 两 个 标志 变量 ， 一 个 是 传递 值 的 flags 参 数 ， 
另 一 个 是 所 传递 msghar 结 构 的 msg_flags 成 员 ， 它 传递 的 是 引用 ， 因 为 传递 给 函数 的 是 该 结构 
的 地 址 。 


e 
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e 只 有 recvmsg 使 用 msg_flags 成 员 。recvmsg 被 调用 时 ，flags 参 数 被 复制 到 msg_flags 成 
员 《TCPv2 第 502 页 )， 并 由 内 核 使 用 其 值 驱 动 接收 处 理 过程 。 内 核 还 依据 recvmsg 的 结 
果 更 新 msg_flags 成 员 的 值 。 

e sendmsg 则 忽略 msg_flags 成 员 ， 因 为 它 直接 使 用 flags 参 数 驱 动 发 送 处 理 过 程 。 这 一 点 
意味 着 如 果 想 在 某 个 sendmsg 调 用 中 设置 MSG_DONTWAIT 标 志 , 那 就 把 flags 参 数 设 置 为 该 
值 ， 把 msg_flags 成 员 设 置 为 该 值 不 起 作用 。 

图 14-7 汇 总 了 内 核 为 输入 和 输出 函数 检查 的 flags 参 数值 以 及 recvmsg 可 能 返回 的 msg_flag 

成 员 值 。 其 中 没有 sendmsg msg_flags 一 栏 ， 因 为 我 们 已 提 及 本 组 合 无 效 。 
标 OE 


由 内 核 检查 sena、 由 内 核 检查 recv、 由 内 核 通过 recvmsg 函 
sendroMsendmsa hh Zi a sitar flags 结 构 参 
的 flags 参 数 的 flags 参 数 成 员 返 回 


MSG_DONTROUTE 
MSG_DONTWAIT 
MSG_PEEK 

MSG WAITALL 


MSG. EOR 
MSG_OOB 




















MSG_BCAST 

MSG MCAST 
MSG_TRUNC 
MSG_CTRUNC 
MSG_NOTIFICATION 





图 14-7 各 种 1/O 函 数 输入 和 输出 标志 的 总 结 


这 些 标志 中 ， 内 核 只 检查 而 不 返回 前 4 个 标志 ， 既 检查 又 返回 接 下 来 的 2 个 标志 ， 不 检查 而 
只 返回 后 4 个 标志 。recvmsg 返 回 的 7 个 标志 MERIT. 

MSG_BCAST 本 标志 随 BSD/OS 引 入 ， 相 对 较 新 。 它 的 返回 条 件 是 本 数据 报 作 为 链 
路 层 广播 收取 或 者 其 目的 IP 地 址 是 一 个 广播 地 址 。 与 TP_RECVD- 
STADDR 套 接 字 选 项 相 比 ， 本 标志 是 用 于 判定 一 个 UDP 数据 报 是 否 发 
往 某 个 广播 地 址 的 更 好 方法 。 

MSG_MCAST 本 标志 随 BSD/OS 引 入 ， 相 对 较 新 。 它 的 返回 条 件 是 本 数据 报 作为 链 
路 层 多 播 收 取 。 

MSG_TRUNC 本 标志 的 返回 条 件 是 本 数据 报 被 截断 ， 也 就 是 说 ， 内 核 预 备 返 回 的 
数据 超过 进程 事先 分 配 的 空间 (所 有 iov_len 成 员 之 和 )。 我 们 将 在 
22.3 节 详细 讨论 本 问题 。 

MSG, CTRUNC 本 标志 的 返回 条 件 是 本 数据 报 的 辅助 数据 被 截断 ， 也 就 是 说 ， 内 核 
预备 返回 的 辅助 数据 超过 进程 事先 分 配 的 空间 (msg_controllen)。 

MSG_EOR 本 标志 的 返回 条 件 是 返回 数据 结束 一 个 逻辑 记录 。TCP 不 使 用 本 标 
志 ， 因 为 它 是 一 个 字 节 流 协议 。 

MSG_OOB 本 标志 绝 不 为 TCP 带 外 数据 返回 。 它 用 于 其 他 协议 族 ( 例 如 OSI 协 
议 族 )。 

MSG NOTIFICATION ”本 标志 由 SCTP 接 收 者 返回 ， 指 示 读 入 的 消息 是 一 个 事件 通知 ， 而 不 
是 数据 消息 。 

具体 实现 可 能 会 在 msg_flags 成 员 Hives DAMES BLUE RTT EUR BE HS 

感 兴趣 的 标志 值 〈 例 如 图 14-7 中 的 后 6 个 标志 
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图 14-8 展 示 了 一 个 msghar 结 构 以 及 它 指向 的 各 种 信息 。 图 中 假设 进程 即将 对 一 个 UDP 套 接 
字 调 用 recvmsg。 

























图 14-8 ”对 一 个 UDP 套 接 字 调 用 recvmsg 时 的 数据 结构 


图 中 给 协议 地 址 分 配 了 16 个 字 节 ， 给 辅助 数据 分 配 了 20 个 字 节 。 为 缓冲 数据 初始 化 了 一 个 
由 3 个 iovec 结 构 构 成 的 数组 ; 第 一 个 指定 一 个 100 字 节 的 缓冲 区 ， 第 二 个 指定 一 个 60 字 节 的 组 
冲 区 ， 第 三 个 指定 一 个 80 字 节 的 缓冲 区 。 我 们 还 假设 已 为 这 个 套 接 字 设 置 了 IP_RECVDSTADDR 
套 接 字 选项 ， 以 接收 所 读 取 UDP 数 据 报 的 目的 IP 地 址 。 

我 们 接着 假设 从 198.6.38.100 端 口 2000 到 达 一 个 170 字 节 的 UDP 数据 报 ， 它 的 目的 地 是 我 们 
的 UDP 套 接 字 ， 目 的 中 地 址 为 206.168.112.96。 图 14-9 展 示 了 recvmsg 返 回 时 msghdr 结 构 中 的 所 
有 信息 。 


sockaddr in() 
v s 





| 16, AF. INET, 2000 
192.6.38.100 






iovec{} 1] 


iov_len 


图 14-9 recvmsg 返 回 时 对 图 14-8 的 更 新 
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图 中 被 zecvmsg 修 改过 的 字段 标 上 了 阴影 。 从 图 14-8 到 图 14-9 的 变动 包括 以 下 几 点 。 

e 由 msg_name 成 员 指向 的 缓冲 区 被 填 以 一 个 网 际 网 套 接 字 地 址 结构 , 其 中 有 所 收 到 数据 报 
的 源 IP 地 址 和 源 UDP 端 口号 。 

e msg_namelen 成 员 (一 个 值 -结果 参数 ) 被 更 新 为 存放 在 msg_name 所 指 缓冲 区 中 的 数据 
量 。 本 成 员 并 无 变化 ， 因 为 recvmsg 调 用 前 和 返回 后 其 值 均 为 16。 

e 所 收取 数据 报 的 前 100 字 节 数 据 存 放 在 第 一 个 缓冲 区 ， 中 60 字 节 数 据 存 放 在 第 二 个 缓冲 
K, 后 10 字 节 数 据 存 放 在 第 三 个 缓冲 区 。 最 后 那个 缓冲 区 的 后 70 字 节 没 有 改动 。recvmsg 
函数 的 返回 值 ( 即 170) 就 是 该 数据 报 的 大 小 。 

e 由 msg_control 成 员 指 向 的 缓冲 区 被 填 以 一 个 cmsghar 结 构 。( 我 们 将 在 14.6 节 详细 讨论 
辅助 数据 ， 在 22.2 节 详细 讨论 IP_RECVDSTADDR 套 接 字 选项 。) 该 cmsghar 结 构 中 ， 
cmsg_len 成 员 值 为 16，cmsg_level 成 员 值 为 IPPROTO_IP，cmsg_type 成 员 值 为 
IP_RECVDSTADDR， 随 后 4 个 字 节 存放 所 收 到 UDP 数 据 报 的 目的 IP 地 址 。 这 个 20 字 节 缓 冲 
区 的 后 4 个 字 节 没有 改动 。 

e msg_controllen 成 员 被 更 新 为 所 存放 辅助 数据 的 实际 数据 量 。 本 成 员 也 是 一 个 值 -结果 
参数 ，recvmsg 返 回 时 其 结果 为 16。 

e msg_flags 成 员 同 样 被 recvmsg 更 新 ， 不 过 没有 标志 返回 给 进程 。 

图 14-10 汇 总 了 我 们 已 讲述 的 5 组 IO 函数 之 间 的 差异 。 
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图 14-10 5 组 VO 函数 的 比较 


n de A sec 


辅助 数据 〈ancillary data) 可 通过 调用 sendmsg 和 recvmsg 这 两 个 函数 ， 使 用 msghar 结 构 中 
的 msg_control 和 msg_controllen 这 两 个 成 员 发 送 和 接收 。 辅助 数 据 的 另 一 个 称谓 是 控制 信息 
(control information )。 我 们 将 在 本 节 讲 解 其 概念 并 给 出 用 于 构造 和 处 理 辅 助 数据 的 结构 和 宏 ， 
不 过 介绍 辅助 数据 实际 用 途 的 代码 例子 将 留 到 以 后 的 相关 章节 。 

图 14-11 汇 总 了 我 们 将 在 本 书 中 讨论 的 辅助 数据 的 各 种 用 途 。 


随 UDP 数 据 报 接收 目的 地 址 
随 UDP 数据 报 接收 接口 索引 


IPPROTO IP ” IP RECVDSTADDR _ 
IP RECVIF 


IPPROTO IPV6 TPV6_DSTOPTS 指定 /接收 目的 地 选项 
IPV6_HOPLIMIT 指定 /接收 跳 限 
IPV6_HOPOPTS 指定 /接收 步 跳 选项 
IPV6_NEXTHOP 指定 下 一 跳 地 址 
IPV6_PKTINFO 指定 /接收 分 组 信息 
| IPV6_RTHDR 指定 /接收 路 由 首部 
IPV6_TCLASS 指定 /接收 分 组 流通 类 别 


SCM-CREDS 发 送 /接收 用 户 凭证 


图 14-11 辅助 数据 用 途 的 总 结 
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OSI 协 议 族 也 出 于 各 种 目的 使 用 辅助 数据 ， 但 本 书 不 做 讨论 。 
辅助 数据 由 一 个 或 多 个 辅助 数据 对 象 ancillary data object) 构成 ， 每 个 对 象 以 一 个 定义 在 
头 文件 <sys/socket .h> 中 的 cmsghdar 结 构 开 头 。 


struct cmsghdr í( 
Socklen t cmsg len; /* length in bytes, including this structure */ 
int cmsg level; /* originating protocol */ 
int cmsg. type; /* protocol-specific type */ 
/* followed by unsigned char cmsg data[] */ 
我 们 已 在 图 14-9 中 见识 过 这 个 结构 , 当时 它 由 IP_RECVDSTADDR 套 接 字 选项 用 来 返回 所 收取 
UDP 数 据 报 的 目的 人 P 地 址 。 由 msg_control 指 向 的 辅助 数据 必须 为 csmghar 结 构 适 当地 对 齐 。 


我 们 将 在 图 15-11 中 展示 一 个 对 齐 方 法 。 
图 14-12 展 示 了 在 一 个 控制 缓冲 区 中 出 现 2 个 辅助 数据 对 象 的 例子 。 


msg control 







填充 字 节 


图 14-12 ”包含 两 个 辅助 数据 对 象 的 辅助 数据 


msg_control 指 向 第 一 个 辅助 数据 对 象 , 辅助 数据 的 总 长 度 则 由 msg_controllen 指 定 。 每 
个 对 象 开 头 都 是 一 个 描述 该 对 象 的 cmsghar 结 构 。 在 cmsg_type 成 员 和 实际 数据 之 间 可 以 有 填 
充 字 节 ， 从 数据 结尾 处 到 下 一 个 辅助 数据 对 象 之 前 也 可 以 有 填充 字 节 。 我 们 稍 后 讲解 的 5 个 
CMSG_XXX 宏 会 解决 这 种 可 能 的 填充 问题 。 


图 14-13 展 示 了 通过 一 个 Unix 域 套 接 字 传 递 描述 符 〈15.7 节 ) 或 传递 凭证 〈15.8 节 ) 时 所 用 
cmsghdr 结 构 的 格式 。 b 
图 中 我 们 假设 cmsghar 结 构 的 每 个 成 员 〈 总 共 3 个 ) 都 占用 4 个 字 节 ， 而 且 在 cmsghar 结 构 
和 实际 数据 之 间 没 有 填充 字 节 。 当 传递 描述 符 时 ，cmsg_qata 数 组 的 内 容 是 真正 的 描述 符 值 。 
图 中 只 展示 了 一 个 待 传递 的 描述 符 ， 然 而 一 般 总 能 传递 多 个 描述 符 〈 这 种 情况 下 cmsg_len 的 值 

为 12 加 上 4 乘 以 描述 符 的 数目 ， 这 里 假设 每 个 描述 符 占据 4 个 字 节 )。 









辅助 数据 对 象 
CMSG_SPACE () 






CMSG LEN() 


i; 





msg controllen 





CMSG LEN() 


辅助 数据 对 鱼 
CMSG_SPACE () 


cmsg len 











312 $143 高 级 IO 函数 





emsghdr{} 
cmsg_level 
cmsg type 
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fcred() 





图 14-13 ”用 在 Unix 域 套 接 字 上 的 cmsghar 结 构 


既然 由 recvmsg 返 回 的 辅助 数据 可 含有 任意 数目 的 辅助 数据 对 象 ， 为 了 对 应 用 程序 屏蔽 可 
能 出 现 的 填充 字 节 ， 头 文件 <sys/socket.h> 中 定义 了 以 下 5 个 宏 ， 以 简化 对 辅助 数据 的 处 理 。 


#include «sys/socket.h» 
#include «sys/param.h» /* for ALIGN macro on many implementations */ 


struct cmsghdr *CMSG FIRSTHDR(struct msghdr *mhdrptr) ; 


返回 ， 指 向 第 一 个 cmsghdr 结 构 的 指针 ， 若 无 辅助 数据 则 为 NUTL 
struct cmsghdr *CMSG NXTHDR(struct msghdr *mhdrptr, struct cmsghdr *cmsgptr) ; 


返回 ， 指 向 下 一 个 cmsghar 结 构 的 指针 ， 若 不 再 有 辅助 数据 对 象 则 为 NULL 
unsigned char *CMSG DATA(struct cmsghdr *cmsgptr) ; 


返回 :指向 与 cmsghdr 结 构 关 联 的 数据 的 第 一 个 字 节 的 指针 
unsighed int CMSG LEN(unsigned int length) ; 


返回 : 给 定数 据 量 下 存放 到 cmsg_len 中 的 值 


unsigned int CMSG SPACE(unsigned int length); 


返回 : 给 定数 据 且 下 一 个 辅助 数据 对 象 总 的 大 小 





POSIX 定 义 了 前 3 个 宏 ，RFC 3542 [ Stevens et al. 2003] 定义 了 后 2 个 宏 。 
这 些 宏 能 以 如 下 伪 代 码 形式 使 用 。 


struct msghdr msg; 
struct cmsghdr *cmsgptr; 


/* fill in msg structure */ 
/* call recvmsg() */ 


for (cmsgptr = CMSG FIRSTHDR(&msg); cmsgptr != NULL; 
cmsgptr = CMSG NXTHDR(&msg, cmsgptr)) { 


if (cmsgptr->cmsg_level == ... && 
cmsgptr->cmsg_type ==...) { 
u_char *ptr; 


ptr = CMSG_DATA(cmsgptr) ; 
/* process data pointed to by ptr */ 
} 
} 


CSMG_FIRSTHDR 返 回 指向 第 一 个 辅助 数据 对 象 的 指针 ， 然 而 如 果 在 msghar 结 构 中 没有 辅助 
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数据 (或 者 msg_control 为 一 个 空 指针 , 或 者 csmg_len 小 于 一 个 cmsghar 结 构 的 大 小 )， 那 
就 返回 一 个 空 指针 。 当 控制 缓冲 区 中 不 再 有 下 一 个 辅助 数据 对 象 时 ，csMG_NXTHDR 也 返回 一 
个 空 指针 。 


CMSG_FIRSTHDR 的 许多 现 有 实现 并 不 检查 msg_controllen 而 直接 返回 cmsg_control 
的 值 。 在 图 22-2 中 ， 我 们 将 在 调用 该 宏 之 前 测试 msg_controllen 的 值 . 


CMSG_LEN 和 cMSG_sPACE 的 区 别 在 于 ， 前 者 不 计 辅 助 数 据 对 象 中 数据 部 分 之 后 可 能 的 填充 
字 节 ， 因 而 返回 的 是 用 于 存放 在 cmsg_1len 成 员 中 的 值 ， 后 者 计 上 结尾 处 可 能 的 填充 字 节 ， 因 而 
返回 的 是 为 辅助 数据 对 象 动态 分 配 空间 的 大 小 值 。 
14.7 “排队 的 数据 量 

有 时 候 我 们 想 要 在 不 真正 读 取 数 据 的 前 提 下 知道 一 个 套 接 字 上 已 有 多 少数 据 排队 等 着 读 
取 。 有 3 个 技术 可 用 于 获悉 已 排队 的 数据 量 。 

(1) 如 果 获 悉 已 排队 数据 量 的 目的 在 于 避免 读 操 作 阻塞 在 内 核 中 (因为 没有 数据 可 读 时 我 们 
还 有 其 他 事情 可 做 )， 那 么 可 以 使 用 非 阻塞 式 WO。 我 们 将 在 第 16 章 中 讨论 非 阻 塞 式 LO。 

(2) 如 果 我 们 既 想 查看 数据 ， 又 想 数 据 仍 然 留 在 接收 队列 中 以 供 本 进程 其 他 部 分 稍 后 读 取 ， 
那么 可 以 使 用 MsG_PEEK 标 志 〈 图 14-6)。 如 果 我 们 想 这 样 做 ， 然 而 不 能 肯定 是 否 真 有 数据 可 读 ， 
那么 可 以 结合 非 阻 塞 套 接 字 使 用 该 标志 ， 也 可 以 组 合 使 用 MsG_DpoNTWaAIT 标 志和 MSG_PEEK 标 志 。 
需 注 意 的 是 ， 就 一 个 字 节 流 套 接 字 而 言 ， 其 接收 队列 中 的 数据 量 可 能 在 两 次 相继 的 recv 调 用 之 
间 发 生变 化 。 举 例 来 说 ， 假 设 指定 MsG_PEEK 标 志 以 一 个 长 度 为 1024 字 节 的 缓冲 区 对 一 个 TCP 套 
接 字 调用 recv， 而 且 其 返回 值 为 100。 如 果 再 次 调用 同一 个 recv， 返 回 值 就 有 可 能 超过 100〈 假 
设 指定 的 缓冲 区 长 度 大 于 100)， 因 为 在 这 两 次 调用 之 间 TCP 可 能 又 收 到 了 一 些 数据 。 

就 一 个 UDP 套 接 字 而 言 ,假设 其 接收 队列 中 已 有 一 个 数据 报 ， 如 果 我 们 指定 MSG_PEEK 标 志 
调用 recvfrom 一 次 ， 稍 后 不 指定 该 标志 再 调用 recvfrom 一 次 ， 那 么 即使 另 有 数据 报 在 这 两 次 
调用 之 间 加 入 该 套 接 字 的 接收 队列 ， 这 两 个 调用 的 返回 值 ( 数 据 报 大 小 、 内 容 及 发 送 者 地 址 ) 
也 完全 相同 。( 当 然 这 里 假设 没有 其 他 进程 共享 该 套 接 字 并 从 中 读 取 数据 。) 

(3) 一 些 实现 支持 ioct1 的 FIONREAD 命 令 。 该 命令 的 第 三 个 ioct1 参 数 是 指向 某 个 整数 的 一 
个 指针 ， 内 核 通过 该 整数 返回 的 值 就 是 套 接 字 接收 队列 的 当前 字 节 数 (CTCPv2 第 553 页 )。 该 值 
是 已 排队 字 节 的 总 和 ， 对 于 UDP 套 接 字 而 言 包括 所 有 已 排队 的 数据 报 。 还 要 注意 的 是 ， 在 源 自 
Berkeley 的 实现 中 ， 为 UDP 套 接 字 返 回 的 值 还 包括 一 个 套 接 字 地 址 结构 的 空间 ， 其 中 含有 发 送 
者 的 IP 地 址 和 端口 号 (对 于 IPv4 为 16 个 字 节 ， 对 于 IPv6 为 24 个 字 节 )。 


到 目前 为 止 的 所 有 例子 中 , 我 们 一 直 使 用 也 称 为 Unix LO 一 一 包括 read、write 这 两 个 函数 
及 它们 的 变 体 (recv、send 等 等 ) 一 一 的 函数 执行 W/O。 这些 函 数 围 绕 描 述 符 (descriptor〉 工 
作 ， 通 常 作为 Unix 内 核 中 的 系统 调用 实现 。 

执行 JO 的 另 一 个 方法 是 使 用 标准 IO 函数 库 Cstandard IO library)。 这 个 函数 库 由 ANSIC 标 
准 规范 , 意 在 便于 移植 到 支持 ANSIC 的 非 Unix 系 统 上 .标准 MO 函 数 库 处 理 我 们 直接 使 用 Unix IO 
函数 时 必须 考虑 的 一 些 细节 ， 辟 如 自动 缓冲 输入 流 和 输出 流 。 不 幸 的 是 ， 它 对 于 流 的 缓冲 处 理 
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可 能 导致 我 们 同样 必须 考虑 的 一 组 新 的 问题 。APUE 第 5 章 详 细 讨论 了 标准 IO 函数 库 ，[Plauger 
1992] 给 出 并 讨论 了 标准 IO 函数 库 的 一 个 完整 的 实现 。 


标准 IO 函数 库 也 使 用 流 (stream) 这 个 称谓 ， 壁 如 “打开 一 个 输入 流 ” 或 “ 刷 写 输 
出 流 ”。 不 要 把 它 和 我 们 将 在 第 31 章 中 讨论 的 流 (STREAMS) 子 系统 相 混 消 。 
标准 IJO 函 数 库 可 用 于 套 接 字 ， 不 过 需要 考虑 以 下 几 点 。 
e 通过 调用 fdopen， 可 以 从 任何 一 个 描述 符 创建 出 一 个 标准 WO 流 。 类 似 地 ， 通 过 调用 
fileno， 可 以 获取 一 个 给 定 标准 IO 流 对 应 的 描述 符 。 我 们 第 一 次 遇 到 fileno 是 在 图 6-9 
中 ， 当 时 我 们 想 在 一 个 标准 IJO 流 上 调用 select。select 只 能 用 于 描述 符 ， 因 此 我 们 不 
得 不 获取 那个 标准 IO 流 的 描述 符 。 
TCP 和 UDP 套 接 字 是 全 双 工 的 .标准 MO 流 也 可 以 是 全 双 工 的 : 只 要 以 r+ 类 型 打开 流 即 可 ， 
r+ 意味 着 读 写 。 然 而 在 这 样 的 流 上 , 我 们 必须 在 调用 一 个 输出 函数 之 后 插入 一 个 fflush、 
fseek、fsetpos 或 rewind 调 用 才能 接着 调用 一 个 输入 函数 。 类 似 地 ， 调 用 一 个 输入 函 
数 后 也 必须 插入 一 个 fseek、fsetpos 或 rewind 调 用 才能 调用 一 个 输出 函数 ， 除 非 输 入 
函数 遇 到 一 个 EOF 。fseek、fsetpos 和 rewind 这 3 个 函数 的 问题 是 它们 都 调用 1seek， 
而 lseek 用 在 套 接 字 上 只 会 失败 。 
e 解决 上 述 读 写 问 题 的 最 简单 方法 是 为 一 个 给 定 套 接 字 打开 两 个 标准 1/O 流 : 一 个 用 于 读 ， 
一 个 用 于 写 。 


例子 : 使 用 标准 VOR) str echo 函数 


下 面 我 们 使 用 标准 WO 代替 read 和 writen 重 新 编写 图 5-3 中 的 TCP 回 射 服务 器 程序 。 图 14-14 
是 改 用 标准 LO 的 str_echo 函 数 版 本 。( 这 个 版 本 存在 一 个 我 们 稍 后 要 讲解 的 问题 。) 


advio/str_echo_stdio02.c 


1 #include "unp.h" 

2 void 

3 str echo(int sockfd) 

4 ( 

5 char line[MAXLINE]; 

6 FILE *fpin, *fpout; 

7 fpin = Fdopen(sockfid, "r"); 
8 fpout - Fdopen(sockfd, "w"); 
9 while (Fgets(line, MAXLINE, fpin) !- NULL) 
10 Fputs(line, fpout); 

1i ) 





advio/str echo stdio02.c 
图 14-14” 重 写成 改 用 标准 WO 的 str_echo 函 数 


把 描述 符 转 换 成 输入 流 和 输出 流 
7-10 调用 faopen 创 建 两 个 标准 IO 流 ， 一 个 用 于 输入 ， 一 个 用 于 输出 。 把 原来 的 reada 
和 writen 调 用 替换 成 tgets 和 fputs 调 用 。 
如 果 以 这 个 版 本 的 str_echo 运 行 我 们 的 服务 器 ， 然 后 运行 其 客户 ， 我 们 得 到 以 下 结果 : 


hpux $ tcpcli02 206.168.112.96 

hello, world 键入 本 行 ， 但 无 回 射 输出 
and hi 再 键入 本 行 ， 仍 无 回 射 输出 
hello?? 再 键入 本 行 ， 仍 无 回 射 输出 
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^D 键入 EOF 字 符 

hello, world 至 此 才 输 出 那 三 个 回 射 行 
and hi 

hello?? 


服务 器 直到 我 们 键入 EOF 字 符 才 回 射 所 有 文本 行 的 原因 在 于 这 里 存在 一 个 缓冲 问题 。 以 下 
是 实际 发 生 的 步骤 。 
e 我 们 键入 第 一 行 输入 文本 ， 它 被 发 送 到 服务 器 。 
e 服务 器 用 fgets 读 入 本 行 ， 再 用 fputs 回 射 本 行 。 
e 服务 器 的 标准 IJO 流 被 标准 IO 函数 库 完 全 缓冲 。 这 意味 着 该 函数 库 把 回 射 行 复制 到 输出 
流 的 标准 IO 缓冲 区 ， 但 是 不 把 该 缓冲 区 中 的 内 容 写 到 描述 符 ， 因 为 该 缓冲 区 未 满 。 
e 我 们 键入 第 二 行 输入 文本 ， 它 被 发 送 到 服务 器 。 
e 服务 器 用 fgets 读 入 本 行 ， 再 用 fputs 回 射 本 行 。 
e 服务 器 的 标准 VO 函数 库 再 次 把 回 射 行 复制 到 输出 流 的 标准 LO 缓冲 区 ， 但 是 不 把 该 缓冲 
区 中 的 内 容 写 到 描述 符 ， 因 为 该 缓冲 区 仍 未 满 。 
e 同样 的 情形 发 生 在 我 们 键入 的 第 三 行文 本 上 。 
e 我 们 键入 EOF 字 符 ， 致 使 我 们 的 str_cli 函 数 (图 6-13) 调用 shutGown， 从 而 发 送 一 个 
FIN 到 服务 器 。 
e 服务 器 TCP 收 取 这 个 FIN， 它 被 fgets 读 入 ， 致 使 fgets 返 回 一 个 空 指针 。 
e str_echo 函 数 返 回 到 服务 器 的 main 函 数 ( 图 5-12)， 子 进程 通过 调用 exit 终 止 。 
© C 库 函数 exit 调 用 标准 IO 清理 函数 (APUE 第 162 一 164 页 ?)。 之 前 由 我 们 的 fputs 调 用 填 
入 输出 缓冲 区 中 的 未 满 内 容 现 被 输出 。 
e 服务 器 子 进程 终止 , 致使 它 的 已 连接 套 接 字 被 关闭 ， 从 而 发 送 一 个 FIN 到 客户 ， 完 成 TCP 
的 四 分 组 终止 序列 。 
e 我 们 的 str_c1li 函 数 收取 并 输出 由 服务 器 回 射 的 三 行文 本 。 
e str_cli 接 着 在 其 套 接 字 上 收 到 一 个 EOF， 客 户 于 是 终止 。 
这 里 的 问题 出 在 服务 器 中 由 标准 WO 函数 库 自动 执行 的 缓冲 之 上 。 标 准 1/O 函 数 库 执行 以 下 
三 类 缓冲 。 
(1) ASF (fully buffering) 意味 着 只 在 出 现下 列 情况 时 才 发 生 IO: 缓冲 区 满 ， 进 程 显 
式 调 用 fflush， 或 进程 调用 exit 终 止 自身 。 标 准 IO 缓 冲 区 的 通常 大 小 为 8192 字 节 。 
(2) 行 缓冲 〈linebuffering) 意味 着 只 在 出 现下 列 情况 时 才 发 生 MO: 碰 到 一 个 换行 符 ， 进 程 
调用 fflush， 或 进程 调用 exit 终 止 自身 。 
(3) 不 缓冲 (unbuffering) 意味 着 每 次 调用 标准 VO 输 出 函数 都 发 生 IO。 
标准 LO 函数 库 的 大 多 数 Unix 实 现 使 用 如 下 规则 。 
。 标准 错误 输出 总 是 不 缓冲 。 
e 标准 输入 和 标准 输出 完全 缓冲 ， 除 非 它们 指 代 终 端 设备 〈 这 种 情况 下 它们 行 缓冲 )。 
e 所 有 其 他 IO 流 都 是 完全 缓冲 ， 除 非 它们 指 代 终端 设备 〈 这 种 情况 下 它们 行 缓冲 )。 
既然 套 接 字 不 是 终端 设备 ， 图 14-14 中 的 str_echo 函 数 的 上 述 问题 就 在 于 输出 流 (fpout) 
是 完全 缓冲 的 。 本 问题 有 两 个 解决 办 法 。 第 一 个 办 法 是 通过 调用 setvbuf 人 迫使 这 个 输出 流 变 为 
行 缓冲 。 第 二 个 办 法 是 在 每 次 调用 fputs 之 后 通过 调用 fflush 强 制 输出 每 个 回 射 行 。 然 而 在 现 
实 使 用 中 ， 这 两 种 办 法 都 易于 犯错 ， 与 Nagle 算 法 〈 如 7.9 节 所 述 ) 的 交互 可 能 也 成 问题 。 大 多 


© 此 处 为 APUE 第 1 版 英文 原版 书页 码 ， 第 2 版 英文 原版 书 为 第 180 一 18I 页 ， 第 2 版 中 文 版 为 第 148 一 149 页 。 
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数 情 况 下 , 最 好 的 解决 办 法 是 彻底 避免 在 套 接 字 上 使 用 标准 IO 函数 库 , 并 且 如 3.9 节 所 述 在 缓冲 
区 而 不 是 文本 行 上 执行 操作 。 当 标准 IO 流 的 便利 性 大 过 对 缓冲 带 来 的 bug 的 担忧 时 ， 在 套 接 字 
上 使 用 标准 IO 流 也 可 能 可 行 ， 但 这 种 情况 很 罕见 。 
要 注意 的 是 标准 IIO 库 的 菜 些 实现 在 描述 符 大 于 255 情 况 下 还 有 一 个 问题 。 这 一 点 对 于 需 
处 理 大 量 描述 符 的 网 络 服 务 器 可 能 也 是 一 个 问题 , 检查 你 的 <stdio.h> 头 文件 中 定义 的 FILE 
结构 ， 看 看 存放 描述 符 的 变量 是 什么 类 型 。 
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我 们 已 在 本 章 早先 讨论 过 为 套 接 字 操作 设置 时 间 限 制 的 若 十 方法。 如今 许多 操作 系统 还 提 
供 其 他 可 选 方法 ， 它 们 有 具备 我 们 已 在 第 6 章 中 讲解 过 的 selecz 和 poll1 这 两 个 函数 的 特性 。 这 些 
方法 尚未 被 POSIX 采 纳 ， 而 且 在 不 同 实现 上 存在 细微 差异 ， 因 此 使 用 这 些 机 制 的 代码 应 被 认为 
是 不 可 移植 的 。 本 节 介 绍 两 个 机 制 ， 其 他 机 制 与 它们 类 似 。 


14.9.1 /dev/poll 接口 


Solaris 上 名 为 /dev/pol1 的 特殊 文件 提供 了 一 个 可 扩展 的 轮 询 大 量 描述 符 的 方法 。select 
和 pol1 存 在 的 一 个 问题 是 ， 每 次 调用 它们 都 得 传递 待 查询 的 文件 描述 符 。 轮 询 设 备 能 在 调用 之 
间 维 持 状 态 ， 因 此 轮 询 进程 可 以 预先 设置 好 待 查询 描述 符 的 列表 ， 然 后 进入 一 个 循环 等 待 事件 
发 生 ， 每 次 循环 回来 时 不 必 再 次 设置 该 列表 。 

打开 /dev/pol1l 之 后 ， 轮 询 进 程 必须 先 初始 化 一 个 pol1fd 结 构 《〈 即 pol1 函 数 使 用 的 结构 ， 
不 过 本 机 制 不 使 用 其 中 的 revents 成 员 ) 数组 ， 再 调用 write 往 /dev/poll 设 备 上 写 这 个 结构 数 
组 以 把 它 传递 给 内 核 ， 然 后 执行 oct1 的 DP_POLL 命 令 阻 塞 自 身 以 等 待 事件 发 生 。 传 递 给 ioct1 
调用 的 结构 如 下 : 

struct dvpoll { 

struct pollfd* dp fds; 


int dp nfds; 
int dp timeout; 





} 
其 中 ap_fqas 成 员 指向 一 个 缓冲 区 ， 供 ioct1i 在 返回 时 存放 一 个 pol1fd 结 构 数组 。Gp_nfds 成 员 
指定 该 缓冲 区 的 大 小 。ioct1 调 用 将 一 直 阻 塞 到 任何 一 个 被 轮 询 描 述 符 上 发 生 所 关心 的 事件 ， 
或 者 流逝 时 间 超 过 经 由 dp_timeout 成 员 指 定 的 毫秒 数 为 止 。dp_timeout 指 定 为 0 将 导致 ioct1 
立即 返回 ， 从 而 提供 了 使 用 本 接口 的 非 阻塞 手段 。ap_timeout 指 定 为 -1 表示 没有 超时 设置 。 
我 们 把 图 6-13 中 使 用 select 的 str_cli 函 数 改 为 图 14-15 中 使 用 /dev/poll 的 版 本 。 
向 /dev/poll 提 供 描述 符 列表 
14-21 ”填写 好 一 个 pol1fa 结 构 数 组 后 ， 把 它 传递 给 /dev/poll。 本 例子 只 需要 2 个 描述 符 , 我 们 
于 是 使 用 静态 数组 。 使 用 /dev/pol1l 的 现实 程序 可 能 需要 监视 成 百 个 甚至 上 千 个 描述 符 ， 
它们 的 这 个 数组 有 可 能 是 动态 分 配 的 。 
等 待 有 事 可 做 
24-28 ”让 进程 阻塞 在 ioct1 调 用 上 , 等 待 有 事 可 做 。ioct1 的 返回 值 就 是 已 就 绪 描 述 符 的 个 数 。 
遍 查 描述 符 
30-49 本 例子 的 代码 相当 简单 ， 因 为 我 们 知道 就 绪 的 描述 符 不 外 乎 sockfa 和 输入 文件 描述 
符 。 规 模 较 大 的 程序 描述 符 遍 查 工 作 比 较 复 杂 ， 可 能 涉及 往 线程 派遣 任 务 。 


1 #include 
2 #include 


3 void 
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advio/str. cli poll03.c 





"unp.h* 
«sys/devpoll.h» 


4 str cli(FILE *fp, int sockfd) 


:| 


int stdineof; 
char buf [MAXLINE] ; 
int n; 

int wid; 


struct pollfd  pollfd[2]; 
struct dvpoll dopoll; 


int 
int 


wfd 


i; 
result; 


= Open("/dev/poll", O_RDWR, 0); 


pollfda[0].fd = fileno(fp); 
pollfd[0].events = POLLIN; 
pollfd[0].revents = 0; 


pollfd[1].fd = sockfd; 
pollfd[1].events = POLLIN; 
pollfd[1].revents = 0; 


Write(wfd, pollfd, sizeof(struct pollfd) * 2); 


stdineof = 0; 
for (33) i 


/* block until /dev/poll says something is ready */ 
dopoll.dp_timeout = -1; 

dopoll.dp nfds = 2; 

dopoli.dp fds = pollfd; 

result = Ioctl(wfd, DP POLL, &dopoll); 


/* loop through ready file descriptors */ 
for (i = 0; i < result; i++) { 
if (dopoll.dp fds[i].fd == sockfd) { 
/* socket is readable */ 
if ( (n = Read(sockfd, buf, MAXLINE)) -- 0) ( 
if (stdineof -- 1) 
return; /* normal termination */ 
else 
err quit("str cli: server terminated prematurely"); 
} 


Write(fileno(stdout), buf, n); 


} else { 
/* input is readable */ 
if ( (n = Read(fileno(fp), buf, MAXLINE)) == 0) { 


stdineof = 1; 
Shutdown (sockfd, SHUT WR); /* send FIN */ 
continue; 


} 


Writen(sockfd, buf, n); 





图 14-15 使 用 /Gev/poll1 的 str_c1i 函 数 


advio/str cli pollü3.c |403 
i 


404 
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14.9.2 kqueue 接口 


FreeBSD 随 4.1 版 本 引入 了 kaueue 接 口 。 本 接口 允许 进程 向 内 核 注 册 描述 所 关注 kaueue 事 件 
的 事件 过 滤器 (event filter)。 事 件 除 了 与 select 所 关注 类 似 的 文件 O 和 超时 外 ， 还 有 异步 IJO、 
文件 修改 通知 (例如 文件 被 删除 或 修改 时 发 出 的 通知 )、 进 程 跟踪 (例如 进程 调用 exit 或 fork 
时 发 出 的 通知 ) 和 信号 处 理 。kaueue 接 口 包括 如 下 2 个 函数 和 1 个 宏 。 















#include <sys/types.h> 
#include <sys/event.h> 
#include <sys/time.h> 









int kqueue (void); 
int kevent (int kg, const struct kevent *changelist, int nchanges, 
struct kevent *eventlist, int nevents, 
const struct timespec *timeout) ; 
void EV SET(struct kevent *kev, uintptr t ident, short filter, 
u short flags, u int fflags, intptr t data, void *udata); 


kqueue 函 数 返 回 一 个 新 的 kqueue 描 述 符 ， 用 于 后 续 的 kevent 调 用 中 。kevent 函 数 既 用 于 
注册 所 关注 的 事件 ， 也 用 于 确定 是 否 有 所 关注 事件 发 生 。 changelist 和 nchanges 这 两 个 参数 给 出 
对 所 关注 事件 做 出 的 更 改 ， 若 无 更 改 则 分 别 取 值 NULL 和 0。 如 果 nchanges 不 为 0，kevent 函数 就 
执行 changelist 数 组 中 所 请 求 的 每 个 事件 过 滤器 更 改 。 其 条 件 已 经 触发 的 任何 事件 (包括 刚 在 
changelist 中 增设 的 那些 事件 ) 由 kevent 函 数 通 过 eventlist 参 数 返 回 ， 它 指向 一 个 由 nevents 个 元 素 
构成 的 kevent 结 构 数组 。kevent 函 数 在 evenmtiist 中 返回 的 事件 数目 作为 函数 返回 值 返 回 ，0 表 示 
发 生 超时 。 超 时 通过 timeout 参 数 设 置 ， 其 处 理 类 似 select: NULL 阻 塞 进程 ， 非 0 值 timespec 指 
定 明确 的 超时 值 ，0 值 timespec 执 行 非 阻 寨 事件 检查 。 注意，kevent 使 用 的 timespec 结 构 不 同 
于 select 使 用 的 timeval 结 构 ， 前 者 的 分 辨 率 为 纳 秒 ， 后 者 的 分 辩 率 为 微 秒 。 

kevent 结 构 在 头 文件 <sys/event .h> 中 定义 ， 


struct kevent { 


uintptr t ident; /* identifier (e.g., file descriptor) */ 
short filter; /* filter type (e.g., EVFILT READ) */ 

u short flags; /* action flags (e.g., EV ADD) */ 

u, int fflags; /* filter-specific flags */ 

intptr t data; /* filter-specific data */ 

void *udata; /* opaque user data */ 


}; 


其 中 fiags 成 员 在 调用 时 指定 过 滤器 更 改行 为 ， 在 返回 时 额外 给 出 条 件 ， 如 图 14-16 所 示 。 


EV_ADD 增设 事件 ; 自动 启用 ， 除 非 同时 指定 EV_DISABLE 
EV_CLEAR 用 户 获取 后 复位 事件 状态 

EV_DELETE 删除 事件 

EV DISABLE | 禁用 事件 但 不 删除 

EV_ENABLE 重新 启用 先前 禁用 的 事件 

EV_ONESHOT | 触发 一 次 后 删除 事件 
发 生 EOF 条 件 
发 生 错 误 ; errno 值 在 data 成 员 中 


图 14-16 ”kevent 结 构 的 flags 成 员 
filter 成 员 指 定 的 过 滤器 类 型 如 图 14-17 所 示 。 
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EVFILT AIO SUEVO3 (6.215) 
EVFILT_PROC 进程 exit 、fork 或 exec 事 件 
EVFILT_READ 描述 符 可 读 ， 类 似 select 


EVFILT_SIGNAL 收 到 信和 号 


EVFILT TIMER 周期 性 或 一 次 性 的 定时 器 


EVFILT VNODE 文件 修改 和 删除 事件 





EVFILT WRITE 描述 符 可 写 ， 类 似 select 


图 14-17 kevent 结 构 的 fiiter 成 员 


我 们 把 图 6-13 中 使 用 select 的 str_cli 函 数 改 为 图 14-18 中 使 用 kaqveue 的 版 本 。 





1 #include "unp.h" 


advio/str cli kqueue04.c 


== 0) { 


err quit("str cli: server terminated prematurely"); 


Kevent(kq, &kev[i], 1, NULL, 0, &ts); /* remove kevent */ 


2 void 

3 str cli(FILE *fp, int sockfd) 

4{ 

5 int kg, i, n, nev, stdineof - 0, isfile; 

6 char buf [MAXLINE] ; 

7 struct kevent kev[2]; 

8 struct timespec ts; 

9 struct stat st; 

10 isfile = ((fstat(fileno(fp), &st) == 0) && 

11 (st.st mode & S IFMT) == S IFREG); 

12 EV SET(&kev[0], fileno(fp), EVFILT READ, EV ADD, 0, 0, NULL); 
13 EV SET(&kev[1], sockfd, EVFILT READ, EV ADD, 0, 0, NULL); 
14 kq = Kqueue(); 

15 ts.tv sec - ts.tv nsec - 0; 

16 Kevent(kq, kev, 2, NULL, 0, &ts); 

17 For (C $31 

18 nev = Kevent(kq, NULL, 0, kev, 2, NULL); 

19 for (i = 0; i < nev; i++) { 

20 if (kev[i].ident == sockfd) { /* socket is readable */ 
21 if ( (n = Read(sockfd, buf, MAXLINE)) 

22 if (stdineof -- 1) 

23 return; /* normal termination */ 

24 else 

25 

26 } 

27 Write(fileno(stdout), buf, n); 

28 ) 

29 if (kev[i].ident == fileno(fp)) ( /* input is readable */ 
30 n = Read(fileno(fp), buf, MAXLINE); 

31 if (n > 0) 

32 Writen(sockfd, buf, n); 

33 if (n == 0 |! (isfile && n == kev[i].data)) ( 
34 stdineof - 1; 

35 Shutdown(sockfd, SHUT WR);  /* send FIN */ 
36 kev[(il.flags = EV, DELETE; 

37 

38 continue; 

39 ) 

40 } 

41 } 

42 ) 

43 } 


advio/str cli kqueue04.c 


图 14-18 ”使 用 kqueue 的 str_cli 函 数 
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判定 文件 指针 是 否 指向 文件 
10-11 kqueue 磁 到 EOF 的 处 理 行为 取决 于 文件 描述 符 关联 的 是 文件 、 管 道 还 是 终端 ， 因 此 我 
们 调用 fstat 判 定 由 调用 者 指定 的 文件 指针 是 否 关联 一 个 文件 。 本 判定 手段 以 后 还 会 
用 到 。 
为 kqueue 设 置 kevent 结 构 
12-13 ”使 用 EV_sET 宏 设置 ?个 kevent 结 构 ， 它 们 都 指定 类 型 为 读 的 过 滤器 CEVEILT READ), 
并 请 求 把 本 事件 加 入 该 过 滤器 中 (EV_ADD)。 
创建 kqueue 并 增设 过 滤器 
14-16 ”调用 kqueue 取 得 一 个 kqueue 描 述 符 ， 把 超时 值 设 为 0 以 使 非 阻 塞 地 调用 kevent， 以 设 
置 好 的 kevent 结 构 数 组 作为 过 滤器 更 改 请 求 调用 kevent。 
无 限 循环 ， 阻 塞 在 kevent 中 
17-18 进入 无 限 循环 , 每 次 循环 回来 都 阻塞 在 kevent 中 。 每 次 调用 kevent 指 定 的 过 滤器 更 改 
列表 为 NULL〈 因 为 我 们 仅仅 关注 早已 注册 过 的 事件 )， 超 时 参数 为 NULL 〈 永 还 阻塞 )。 
遍 查 返回 的 事件 
19 ” 遍 查 返回 的 每 个 事件 并 分 别处 理 它们 。 
407| 套 接 字 变 为 可 读 
20-28 ”这 段 代码 与 图 6-13 一 样 。 
输入 变 为 可 读 
29-40 ”这 段 代码 类 似 图 6-13, 不 过 为 了 处 理 kqueue 的 EOF 报 告 方式 , 在 代码 结构 上 稍 有 调整 。 
对 于 管道 和 终端 ，kaueue 就 像 select 那 样 返回 一 个 可 读 指示 表示 有 一 个 EOF 待 处 理 。 
然而 对 于 文件 ，kqueue 只 是 在 kevent 结 构 的 data 成 员 中 返回 文件 中 剩余 字 节 数 ， 并 
假设 应 用 进程 能 够 由 此 获悉 是 否 到 达 文 件 尾 。 我 们 于 是 首先 把 本 处 理 循环 重 构 成 若 读 
入 字 节 数 非 0 则 把 数据 写 出 到 网 络 。 接 着 把 EOF 判 断 条 件 改 为 读 入 字 节 数 为 0 (或 者 对 
于 文件 而 言 ， 读 入 字 节 数 等 于 文件 中 剩余 字 节 数 )。 最 后 ， 把 图 6-13 中 使 用 FD_CLR 从 
描述 符 集中 删除 输入 描述 符 的 代码 改 为 设置 Ev_DELETE 标 志 调 用 kevent 从 内 核 维护 
的 过 滤器 中 删除 本 事件 。 
14.9.3 建议 
就 这 些 新 近 发 展 中 的 接口 而 言 ， 阅 读 它们 特定 于 操作 系统 基体 版 本 的 文档 时 必须 小 心 。 这 
些 接口 在 不 同 版 本 之 间 往 往 存在 细微 的 差别 ， 因 为 操作 系统 厂商 仍然 在 推敲 它们 该 如 何 工作 的 
细节 。 
尽管 总 地 说 来 应 该 避免 编写 不 可 移植 的 代码 ,然而 对 于 一 个 任务 繁重 的 网 络 应 用 程序 而 言 ， 
使 用 各 种 可 能 的 方式 为 它 在 特定 的 主机 系统 上 进行 优化 也 相当 普通 。 


14.00 T/TCP. 事务 目的 TCP? 


T/TCP 是 对 TCP 进 行 过 略微 修改 的 一 个 版 本 ， 能 够 避免 近来 彼此 通信 过 的 主机 之 间 的 三 路 
握手 。 关 于 T/TCP 详 见 TCPv3、RFC 1379 [Braden 1992b ] 和 RFC 1644 [Braden 1994 ]. 








GD 本 节 为 本 书 的 第 2 版 的 内 容 ， 本 版 的 新 作者 出 掉 了 这 一 节 。 这 部 分 内 容 还 是 很 重要 的 ， 故 此 处 保留 了 这 -一 部 分 内 
窑 。 一 一 详 者 注 
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T/TCP 最 广 为 流传 的 实现 是 在 FreeBSD 中 。 


T/TCP 能 够 把 SYN、FIN 和 数据 组 合 到 单个 分 节 中 ， 前 提 是 数据 的 大 小 小 于 MSS。 图 14-19 
展示 最 小 T/TCP 事 务 的 时 间 线 .第 一 个 分 节 是 由 客户 的 单个 sendto 调 用 产生 的 SYN、FIN 和 数据 。 
该 分 节 组 合 了 connect、 write 和 shutdown 共 三 个 调用 的 功能 。 服务 器 执行 通常 的 套 接 字 函 数 
调用 步骤 : socket. bind. listenfllaccept, 其 中 后 者 在 客户 的 分 节 到 达 时 返回 。 服 务 器 用 
send 发 回 其 应 答 并 关闭 套 接 字 。 这 使 得 服务 器 在 同 一 个 分 节 中 向 客户 发 出 SYN、FIN 和 应 答 。 
比较 图 14-19 和 图 2-5， 我 们 看 到 不 仅 需 在 网 络 中 传输 的 分 节 有 所 减少 (T/TCP 需 3 个 ，TCP 需 10 
个 ，UDP 需 2 个 )， 而 且 客 户 从 初始 化 连接 到 发 送 一 个 请 求 再 到 读 取 相 应 应 答 所 花费 的 时 间 也 减 
少 了 一 个 RTT。 

服务 器 


| socket, bind, listen 


accept ( fH 3E ) 






socket 
sendto 


read ( [H 3€ ) 


NFIN 数 据 C SU ) 
MASP ING BAA 
414-19 ”最 小 T/TCP 事 务 的 时 间 线 


T/TCP 的 优势 在 于 TCP 的 所 有 可 靠 性 《序列 号 、 超 时 、 重 传 ， 等 等 ) 得 以 保留 ， 而 不 像 UDP 
那样 把 可 靠 性 推 给 应 用 程序 去 实现 。 T/TCP 同 样 维持 TCP 的 慢 启动 和 拥塞 避免 措施 , UDP 应 用 程 
序 却 往往 缺乏 这 些 特性 。 


这 里 我 们 忽略 了 一 些 细节 ， 它 们 都 在 TCPv3 中 讨论 。 举例 来 说 ， 客 户 与 服务 器 第 一 次 通 
信 时 三 路 握手 是 需要 的 。 不 过 将 来 只 要 两 端 各 自 高 速 缓存 的 一 些 信息 都 没 过 时 ， 并 且 没 有 一 
端的 主机 崩溃 并 重启 过 ， 那 么 就 可 以 避免 三 路 握手 。 图 14-19 展 示 的 3 个 分 节 构 成 最 少 请 求 -应 
答 交 换 。 如 果 或 者 请 求 或 者 应 答 超过 一 个 分 节 的 承载 量 ， 那 就 需要 额外 的 分 节 . 术语 “事务 ” 
的 含义 是 客户 的 请 求 与 服务 器 的 应 答 . 常见 的 事务 例子 有 DNS 请 求 与 服务 器 的 应 答 以 及 HTTP 
请 求 与 服务 器 的 应 答 . 该 术语 并 非 用 于 指称 两 阶段 提交 协议 (two-phase commit protococl J 


为 了 处 理 TITCP， 套 接 字 API 需 作 些 变动 。 我 们 指出 ， 在 提供 T/TCP 的 系统 上 TCP 应 用 程序 
无 需 任 何 改动 , 除非 要 使 用 T/TCP 的 特性 。 所 有 现 有 TCP 应 用 程序 继续 使 用 我 们 已 经 讲述 过 的 套 
接 字 API 工 作 。 
e 客户 调用 senato， 以 便 把 数据 的 发 送 结合 到 连接 的 建立 之 中 。 该 调用 替换 单独 的 
connect 调 用 和 write 调用 。 服 务 器 的 协议 地 址 改 为 传递 给 sendto 而 不 是 connect。 
。 新 增 一 个 输出 标志 MsG_EoF (参见 图 14-6)， 用 于 指示 本 套 接 字 上 不 再 有 数据 待 发 送 。 该 
标志 人 允许 我 们 把 shutdaown 调 用 结合 到 输出 操作 (send 或 sendto) 之 中 。 给 一 个 sendto 
调用 同时 指定 本 标志 和 服务 器 的 协议 地 址 有 可 能 导致 发 送 单个 含有 SYN、FIN 和 数据 的 
分 节 。 我 们 还 在 图 14-19 中 指出 ， 服 务 器 发 送 应 答 使 用 的 是 send 而 不 是 write， 其 原因 在 
于 为 了 指定 MSG_EOF 标 志 ， 以 便 随 应 答 一 起 发 送 FIN。( 不 要 把 这 个 新 标志 与 已 有 的 
MsG_EoR 标 志 混为一谈 ， 后 者 为 面向 记录 的 协议 指示 记录 结束 条 件 )。 





accept 返 回 

read 请 求 

< 服务 器 处 理 请 求 > 
send 应 答 


close 
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e 新 定义 一 个 级 别 为 TPPROTO_TCP 的 套 接 字 选 项 rcP_NOPUSH。 本 选项 防止 TCP 只 为 腾空 套 
接 字 发 送 缓冲 区 而 发 送 分 节 。 当 某 个 客户 准备 以 单个 sendto 发 送 一 个 请 求 时 ， 如 果 该 请 
求 大 小 超过 MSS, 它 就 应 该 为 相应 套 接 字 设置 本 选项 , 以 减少 所 发 送 分 节 的 数目 。 TCPv3 
第 47 一 49 页 详细 讨论 了 这 个 新 套 接 字 选 项 。 

e 想 跟 一 个 服务 器 建立 连接 并 且 使 用 T/TCP 发 送 一 个 请 求 的 客户 应 该 调用 socket、 
setsockopt (开启 TCP_NOPUSH 选 项 ) 和 sendto ( 若 只 有 一 个 请 求 待 发 送 则 指定 MSG_EOF 
标志 )。 如 果 setsockopt 返 回 ENOPROTOOPT 错 误 或 者 senato 返 回 ENOTCONN 错 误 ， 那 么 本 
主机 不 支持 TITCP。 这 种 情况 下 客户 可 以 干脆 调用 connect 和 write， 加 上 可 能 后 跟 的 
shutdown 〈 如 果 只 有 一 个 请 求 待 发 送 )。 

e 服务 器 所 需 的 唯一 变动 是 ， 如 果 服 务 器 想 随 应 答 一 起 发 送 FIN， 它 就 应 该 指定 MsG_EOF 
标志 调用 send 以 发 送 应 答 ， 而 不 是 调用 write 以 发 送 应 答 。 

e T/TCP 的 编译 时 测试 可 以 使 用 伪 代 码 #ifdef MSG_EOF。 

TCPv3 的 附录 B 包 含 TITCP 客 户 程序 和 服务 器 程序 的 例子 。 


DLE dC MEHR 


在 套 接 字 操 作 上 设置 时 间 限 制 的 方法 有 三 个 : 

e 使 用 alarm 函 数 和 sIGALRM 信 号 ; 

e 使 用 由 select 提 供 的 时 间 限 制 ; 

e 使 用 较 新 的 So_RCVTIMEO 和 So_SNDTIMEO 套 接 字 选 项 。 

第 一 个 方法 易于 使 用 ， 不 过 涉及 信和 号 处 理 ， 而 信号 处 理 正 如 我 们 将 在 20.5 节 看 到 的 那样 可 
能 导致 竞争 条 件 。 使 用 select 意 味 着 我 们 阻塞 在 指定 过 时 间 限 制 的 这 个 函数 上 ， 而 不 是 阻塞 在 
read、write 或 connect 调 用 上 。 第 三 个 方法 也 易于 使 用 ， 不 过 并 非 所 有 实现 都 提供 。 

recvmsg 和 sendmsg 是 所 提供 的 5 组 VO 函数 中 最 为 通用 的 。 它 们 组 合 了 如 下 能 力 : 指定 
MSG_xxx 标 志 〈 出 自 recv 和 senG)， 返 回 或 指定 对 端的 协议 地 址 (出自 recvfrom 和 sendto),， 使 
用 多 个 缓冲 区 (出 自 reaGv 和 writev)。 此 外 还 增加 了 两 个 新 的 特性 : 给 应 用 进程 返回 标志 ， 接 
收 或 发 送 辅助 数据 。 

我 们 在 文中 讲述 了 10 种 不 同 格式 的 辅助 数据 ， 其 中 6 种 是 随 IPv6 新 定义 的 。 辅 助 数据 由 一 个 
或 多 个 辅助 数据 对 象 构成 ， 每 个 对 象 都 以 一 个 cmsghdar 结 构 打 头 ， 它 指定 数据 的 长 度 、 协 议 级 
别 及 类 型 。5 个 以 cMsG_ 打 头 的 函数 可 用 于 构建 和 分 析 辅 助 数据 。 

C 标 准 IO 函 数 库 也 可 以 用 在 套 接 字 上 ， 不 过 这 么 做 将 在 已 经 由 TCP 提 供 的 缓冲 级 别 之 上 新 
增 一 级 缓冲 。 实 际 上 , 对 由 标准 IO 函数 库 执 行 的 缓冲 缺乏 了 解 是 使 用 这 个 函数 库 最 常见 的 问题 。 
既然 套 接 字 不 是 终端 设备 ， 这 个 潜在 问题 的 常用 解决 办 法 就 是 把 标准 WO 流 设置 成 不 缓冲 ,或 者 
干脆 不 要 在 套 接 字 上 使 用 标准 IO 。 

许多 厂家 提供 轮 询 大 量 事件 却 没 有 select 和 pol1 所 需 开销 的 高 级 方法 。 尽 管 应 该 避免 编写 
不 可 移植 的 代码 ， 有 时 候 性 能 改善 的 收益 会 重 于 不 可 移植 造成 的 风险 。 

TATCP 是 对 TCP 的 一 个 简单 增强 版 本 ， 能 够 在 客户 和 服务 器 近来 彼此 通信 过 的 前 提 下 避免 
三 路 握手 ， 使 得 服务 器 对 于 客户 的 请 求 更 快 地 给 出 应 答 。 从 编程 角度 看 ， 客 户 通过 调用 sendto 
而 不 是 通常 的 connect、write 和 shutdown 调 用 序列 发 挥 TVTCP 的 优势 。 
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14.1 在 图 14-1 中 ， 如 果 当 我 们 重新 设置 SIGALRM 的 信号 处 理 函 数 时 进程 未 曾 建立 过 sTGALRM 的 任何 信号 


处 理 函 数 ， 那 将 会 发 生 什 么 ? 

14.2 在 图 14-1 中 , 如果 进 程 已 设置 了 一 个 alarm 定 时 器 connect_timeo 就 显示 一 个 警告 。 修 改 该 函数 ， 
使 得 它 在 connect 调 用 之 后 和 自身 返回 之 前 重新 设置 这 个 alarm 定 时 器 。 

143 如 下 修改 图 11-11: 在 调用 read 之 前 指定 MSG_PEEK 标 志 调 用 recv，recv 返 回 后 再 以 FIONREAD 命 令 
调用 ioct1， 并 显示 已 排队 在 套 接 字 接 收 缓冲 区 中 的 字 节 数 ， 然 后 调用 read 真 正 读 入 数据 。 

14.4 如 果 进 程 自 然 掉 出 main 盟 数 林 尾 ， 而 不 是 调用 exit 退 出 ， 标 准 IO 缓 冲 区 中 尚未 输出 的 数据 将 会 发 
生 什么 ? 

14.5 按照 图 14-14 之 后 讲解 的 两 个 方法 修改 图 中 程序 ， 验 证 它们 确实 能 够 解决 缓冲 问题 。 


OF E 
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概述 


Unix 域 协议 并 不 是 一 个 实际 的 协议 族 ， 而 是 在 单个 主机 上 执行 客户 /服务 器 通信 的 一 种 方 
法 ， 所 用 API 就 是 在 不 同 主机 上 执行 客户 /服务 器 通信 所 用 的 API〈 套 接 字 API)。 本 系列 书 第 2 卷 
介绍 的 进程 间 通 信 (PC) 实际 上 就 是 单个 主机 上 的 客户 /服务 器 通信 ，Unix 域 协议 因此 可 视 为 
IPC 方 法 之 一 。TCPv3 的 第 三 部 分 提供 了 在 源 自 Berkeley 的 内 核 中 真正 实现 Unix 域 套 接 字 的 细节 。 

Unix 域 提供 两 类 套 接 字 : 字 节 流 套 接 字 类似 TCP) 和 数据 报 套 接 字 (类 似 DUP)。 尽 管 也 
提供 原始 套 接 字 , 不 过 它 的 语义 不 曾 见 于 任何 文档 , 作者 们 也 未 见 过 任何 使 用 它 的 程序 , POSIX 
也 没有 它 的 定义 。 

使 用 Unix 域 套 接 字 有 以 下 3 个 理由 。 

(1) 在 源 自 Berkeley 的 实现 中 ，Unix 域 套 接 字 往往 比 通信 两 端 位 于 同一 个 主机 的 TCP 套 接 字 
快 出 一 倍 〈TCPv3 第 223 一 224 页 )。X Window System 发 挥 了 Unix 域 套 接 字 的 这 个 优势 。 当 一 个 
X11 客户 启动 并 打开 到 X11 服务 器 的 连接 时 ， 该 客户 检查 DISPLAY 环 境 变量 的 值 ， 其 中 指定 服务 
器 的 主机 名 、 窗口 和 屏幕 。 如 果 服务 器 与 客户 处 于 同一 个 主机 , 客户 就 打开 一 个 到 服务 器 的 Unix 
域 字 节 流 连接 ， 否 则 打开 一 个 到 服务 器 的 TCP 连 接 。 

(2) Unix 域 套 接 字 可 用 于 在 同一 个 主机 上 的 不 同 进 程 之 间 传 递 描述 符 。 我 们 将 在 15.7 节 提供 
一 个 传递 描述 符 的 完整 例子 。 

(3) Unix 域 套 接 字 较 新 的 实现 把 客户 的 凭证 《用 户 ID 和 组 ID) 提供 给 服务 器 ， 从 而 能 够 提 
供 额 外 的 安全 检查 措施 。 我 们 将 在 15.8 节 讲解 凭证 的 收发 。 

Unix 域 中 用 于 标识 客户 和 服务 器 的 协议 地 址 是 普通 文件 系统 中 的 路 径 名 。 我 们 知道 IPv4 协 
议 地 址 由 一 个 32 位 地 址 和 一 个 16 位 端口 号 构成 , IPv6 协 议 地 址 则 由 一 个 128 位 地 址 和 -个 16 位 端 
口号 构成 。 这 些 路 径 名 不 是 普通 的 Unix 文 件 ， 除 非 把 它们 和 Unix 域 套 接 字 关 联 起 来 ， 否 则 无 法 
读 写 这 些 文件 。 


15.2 Unix 域 套 接 字 地 址 结构 
图 15-1 列 出 了 在 头 文件 <sys/un.h> 中 定义 的 Unix 域 套 接 字 地 址 结构 。 


struct sockaddr un ( 

sa family t sun family; /* AF LOCAL */ 

char sun path[104]; /* null-terminated pathname */ 
}; 














图 15-1 Unix 域 套 接 字 地 址 结构 sockaddr_un 
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BSD 早 期 版 本 定义 sun_path 数 组 的 大 小 为 108 字 节 ， 而 不 是 图 中 所 示 的 104 字 节 . POSIX 
规范 没有 定义 sun_path 数 组 的 大 小 , 而 且 明 确 警 示 应 用 进程 不 应 该 假设 一 个 特定 长 度 . 应 用 
进程 应 该 在 运行 时 刻 使 用 sizeof 运 算 符 得 出 本 结构 的 长 度 , 再 验证 一 个 路 径 名 是 否 适合 存放 
到 其 中 的 sun_path 数 组 。 数 组 长 度 很 可 能 在 92 到 108 之 间 ， 而 不 是 足以 存放 任何 路 径 名 的 更 
大 的 值 。 存 在 这 些 限制 缘起 于 溯 自 4.2BSD 的 实现 细节 ， 要 求 本 结构 适合 装 入 一 个 128 字 节 的 
mbuf ( 一 种 内 核 内 存 缓冲 区 ). 


存放 在 sun_path 数 组 中 的 路 径 名 必须 以 空 字符 结尾 。 实 现 提供 的 SUN_LEN 宏 以 一 个 指向 

sockaddqr_un 结 构 的 指针 为 参数 并 返回 该 结构 的 长 度 ， 其 中 包括 路 径 名 中 非 空 字 节 数 。 未 指定 

地 址 通过 以 空 字 符 串 作 为 路 径 名 指示 ， 也 就 是 一 个 sun_path[0] 值 为 0 的 地 址 结构 。 它 等 价 于 
IPv4 的 INADDR_ANY 常 值 以 及 IPv6 的 IN6ADDR_ANY_INIT 常 值 。 

POSIX 把 Unix 域 协议 重新 命名 为 “本 地 IPC?”， 以 消除 它 对 于 Unix 操 作 系统 的 依赖 。 历 史 

性 常 值 AF_UNIX 变 为 AF_LOCAL。 尽 管 如 此 ， 我 们 依然 使 用 “Unix 域 ”这 个 称谓 ， 因 为 这 已 成 


为 它 约定 俗 成 的 名 字 ， 与 支撑 它 的 操作 系统 无 关 。 另外， 尽管 POSIX 努 力 使 它 独 立 于 操作 系 
统 ， 它 的 套 接 字 地 址 结构 仍然 保留 _ un 后 缓 。 


例子 : Unix 域 套 接 字 的 bind 调用 


图 15-2 中 的 程序 创建 一 个 Unix 域 套 接 字 ， 往 其 上 bind 一 个 路 径 名 ， 再 调用 get sockname 输 
出 这 个 绑 定 的 路 径 名 。 


unixdomain/unixbind.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4t 
5 int sockfd; 
6 socklen_t len; 
7 struct sockaddr_un addri, addr2; 
8 if (arge != 2) 
9 err quit("usage: unixbind <pathname>") ; 
10 Sockfd - Socket(AF LOCAL, SOCK STREAM, 0); 
11 unlink(argv[(1]); /* OK if this fails */ 
12 bzero(&addri, sizeof(addr1)); 
13 addrl.sun, family - AF LOCAL; 
14 strncpy(addrl.sun path, argv[1], sizeof(addrl.sun path)-1); 
15 Bind(sockfd, (SA *) &addrl, SUN LEN(&addr)); 
16 len = sizeof (addr2); 
17 Getsockname(sockfd, (SA *) &addr2, &len); 
18 printf ("bound name = $s, returned len = %d\n", addr2.sun path, len); 
19 exit (0); 
20 ) 
unixdomain/unixbind.c 








图 15-2 ”给 一 个 Unix 域 套 接 字 bindq 一 个 路 径 名 
删除 路 径 名 
11 我 们 调用 bina 捆 绑 到 套 接 字 上 的 路 径 名 就 是 命令 行 参数 。 如 果 文 件 系 统 中 已 存在 该 路 
径 名 ，bind 将 会 失败 。 为 此 我 们 先 调用 unl ink 删 除 这 个 路 径 名 ， 以 防 它 已 经 存在 。 如 
果 它 不 存在 ，unlink 将 返回 一 个 我 们 要 将 其 忽略 的 错误 。 


A 
一 
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bind 然 后 getsockname 
12-18 ”我 们 使 用 strncpy 复 制 命令 行 参 数 ， 以 免 路 径 名 过 长 导致 其 溢出 结构 。 既 然 我 们 已 把 
该 结构 初始 化 为 0， 并 且 从 sun_path 数 组 的 大 小 中 减 去 1， 可 以 肯定 该 路 径 名 将 以 空 字 
符 结 尾 。 之 后 调用 bina， 并 使 用 suN_LEN 宏 计算 bina 的 长 度 参数 。 接 着 调用 
getsockname 取 得 刚 绑 定 的 路 径 名 并 显示 结果 。 
如 果 在 Solaris 系 统 上 运行 本 程序 ， 我 们 得 到 如 下 结果 : 


solaris $ umask 首先 输出 umask 的 值 

022 shell 以 八进制 格式 输出 该 值 
solaris $ unixbind /tmp/moose 

bound name = /tmp/moose, returned len = 13 

Solaris % unixbind /tmp/moose 再 运行 一 次 

bound name = /tmp/moose, returned len = 13 

solaris $ 18 -1 /tmp/moose 


SrwXr-Xr-x 1 andy staff 0 Aug 10 13:13 /tmp/moose 
solaris $% ls -lF /tmp/moose 
Srwxr-xr-x 1 andy staff 0 Aug 10 13:13 /tmp/moose- 


我 们 首先 输出 umasx 的 值 ， 因 为 POSIX 规 定 结果 路 径 名 的 文件 访问 权限 应 根据 该 值 修正 。 
我 们 值 为 22 的 文件 模式 掩 码 关 闭 组 用 户 写 位 和 其 他 用 户 写 位 。 接 着 运行 程序 , 看 到 getsockname 
返回 的 长 度 为 13: sun_family 占 2 个 字 节 ， 路 径 名 占 11 个 字 节 (扣除 结尾 的 空 字 符 )。 这 是 一 个 
“ 值 -结果 ”参数 的 例子 ， 函 数 返 回 时 的 结果 不 同 于 调用 函数 时 的 值 。 我 们 可 以 使 用 printf 的 %s 
格式 输出 该 路 径 名 ， 因 为 sun_path 成 员 中 的 该 路 径 名 是 以 空 字符 结尾 的 。 我 们 然后 再 次 运行 程 
序 ， 以 验证 unl ink 调 用 删除 了 该 路 径 名 。 

我 们 运行 1s -1 命令 查看 文件 权限 和 类 型 。 在 Solaris〈 以 及 大 多 数 Unix 变 体 ) 上 ， 该 路 径 名 
的 文件 类 型 为 显示 为 s 的 套 接 字 。 我 们 还 注意 到 权限 位 已 正确 地 根据 umask 值 修正 。 最 后 指定 -F 
选项 再 次 运行 ]s， 它 会 让 Solaris 在 该 路 径 名 之 后 添加 一 个 等 号 。 

历史 上 umask 值 未 被 应 用 于 Unix 域 套 接 字 文件 ， 不 过 多 数 Unix 厂 商 已 渐渐 地 修复 了 这 一 
点 ， 使 得 umask 如 期 地 工作 . 文件 权限 位 (不论 umask 为 何 值 ) 或 全 都 设置 或 全 不 设置 的 系统 
仍然 存在 。 此 外 ， 有 些 系统 把 Unix 域 套 接 字 文 件 视 为 FIFO， 从 而 显示 为 p。 本 例 展 示 的 是 最 
常见 的 行为 。 


15.8 socketpair 函数 





socketpair 函 数 创建 两 个 随后 连接 起 来 的 套 接 字 。 本 函数 仅 适 用 于 Unix 域 套 接 字 。 


#include «sys/socket.h» 





int socketpair(int family, int type, int protocol, int sockfd[2]); 


返回 :车 成 功 则 为 非 0， 若 出 错 则 为 -1 





family 人 参数 必须 为 AF_LOCAL，protocol 参 数 必须 为 0。type 参 数 既 可 以 是 SoCK_STREAM， 也 可 
以 是 sock_DpGRAM。 新 创建 的 两 个 套 接 字 描述 符 作 为 sockfad/0] 和 sockfd[1] 返 回 。 


本 函数 类 似 Unix 的 pipe 函 数 ， 会 返回 两 个 彼此 连接 的 描述 符 。 事 实 上 ， 源 自 Berkeley 的 
实现 通过 执行 与 sokcetpair 一 样 的 内 部 操作 [TCPv3 第 253 ~ 254 页 ] 给 出 pipe 接 口 。 


这 样 创建 的 两 个 套 接 字 不 曾 命 名 ， 也 就 是 说 其 中 没有 涉及 隐 式 的 bina 调 用 。 
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指定 pe 参数 为 socK_sTRAEM 调 用 socketpair 得 到 的 结果 称 为 流 管道 Cstream pipe)。 它 与 
调用 pipe 创 建 的 普通 Unix 管 道 类 似 ， 差 别 在 于 流 管道 是 全 双 工 的 ， 即 两 个 描述 符 都 是 既 可 读 又 
可 写 。 图 15-7 展 示 了 调用 socketpair 创 建 的 流 管道 。 

POSIX 不 要 求全 双 工 管道 。SVR4 上 pipe 返 回 两 个 全 双 工 的 描述 符 ， 而 源 自 Berkeley 的 内 
核 传统 地 返回 两 个 半 双 工 的 描述 符 (TCPv3 的 图 17-31 ). 


VAA AP Nb ERNE ARES SL E 


当 用 于 Unix 域 套 接 字 时 ，, 套 接 字 函 数 中 存在 一 些 差异 和 限制 。 我 们 尽量 列 出 POSIX 的 要 求 ， 
并 指出 并 非 所 有 实现 目前 都 已 达到 这 个 级 别 。 

(1) 由 bina 创 建 的 路 径 名 默认 访问 权限 应 为 0777〈 属 主 用 户 、 组 用 户 和 其 他 用 户 都 可 读 、 
可 写 并 可 执行 )， 并 按照 当前 umaskx 值 进行 修正 。 

(2) 与 Unix 域 套 接 字 关联 的 路 径 名 应 该 是 一 个 绝对 路 径 名 ,而 不 是 一 个 相对 路 径 名 。 避免 使 
用 后 者 的 原因 是 它 的 解析 依赖 于 调用 者 的 当前 工作 目录 。 也 就 是 说 ， 要 是 服务 器 捆绑 一 个 相对 
路 径 名 ， 客 户 就 得 在 与 服务 器 相同 的 目录 中 《或 者 必须 知道 这 个 目录 才能 成 功 调 用 connect 


或 sendto。 





POSIX 声 称 给 Unix 域 套 接 字 捆 绑 相 对 路 径 名 将 导致 不 可 预计 的 结果 。 


(3) 在 connect 调 用 中 指定 的 路 径 名 必须 是 一 个 当前 绑 定 在 某 个 打开 的 Unix 域 套 接 字 上 的 
路 径 名 ， 而 且 它 们 的 套 接 字 类 型 〈 字 节 流 或 数据 报 ) 也 必须 一 致 。 出 错 条 件 包 括 : (Ca) 该 路 径 
名 已 存在 却 不 是 一 个 套 接 字 ; b) 该 路 径 名 已 存在 且 是 一 个 套 接 字 ， 不 过 没有 与 之 关联 的 打开 
的 描述 符 ; C) 该 路 径 名 已 存在 且 是 一 个 打开 的 套 接 字 ， 不 过 类 型 不 符 〈 也 就 是 说 Unix 域 字 节 
流 套 接 字 不 能 连接 到 与 Unix 域 数据 报 套 接 字 关联 的 路 径 名 ， 反 之 亦 然 )。 

(4) 调用 connect 连 接 一 个 Unix 域 套 接 字 涉及 的 权限 测试 等 同 于 调用 open 以 只 写 方式 访问 
相应 的 路 径 名 。 

(5) Unix 域 字 节 流 套 接 字 类 似 TCP 套 接 字 : 它们 都 为 进程 提供 一 个 无 记录 边界 的 字 节 流 接 
口 。 

(6) 如 果 对 于 某 个 Unix 域 字 节 流 套 接 字 的 connect 调 用 发 现 这 个 监听 套 接 字 的 队列 已 满 (4.5 

节 )， 调 用 就 立即 返回 一 个 ECONNREFUSED 错 误 。 这 一 点 不 同 于 TCP: 如 果 TCP 监 听 套 接 字 的 队 
列 已 满 ，TCP 监 听 端 就 忽略 新 到 达 的 SYN， 而 TCP 连 接 发 起 端 将 数 次 发 送 SYN 进 行 重 试 。 

(7)Unix 域 数据 报 套 接 字 类 似 于 UDP 套 接 字 : 它们 都 提供 一 个 保留 记录 边界 的 不 可 靠 的 数据 
报 服务 。 

(8) 在 一 个 未 绑 定 的 Unix 域 套 接 字 上 发 送 数据 报 不 会 自动 给 这 个 套 接 字 捆绑 一 个 路 径 名 , 这 
一 点 不 同 于 UDP 套 接 字 : 在 一 个 未 绑 定 的 UDP 套 接 字 上 发 送 UDP 数 据 报 导致 给 这 个 套 接 字 捆 绑 
一 个 临时 端口 。 这 一 点 意味 着 除非 数据 报 发 送 端 已 经 捆绑 一 个 路 径 名 到 它 的 套 接 字 ， 否 则 数据 
报 接收 端 无 法 发 回应 答 数据 报 。 类 似 地 ， 对 于 某 个 Unix 域 数据 报 套 接 字 的 connect 调 用 不 会 给 
本 套 接 字 捆绑 一 个 路 径 名 ， 这 一 点 不 同 于 TCP 和 UDP。 


15.5 Unix 域 字 节 流 客户 /服务 器 程序 
我 们 现在 把 第 5 章 中 的 TCP 回 射 客户 /服务 器 程序 重新 编写 成 使 用 Unix 域 套 接 字 。 图 15-3 改 写 
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自 图 $-12 中 使 用 TCP 的 服务 器 程序 。 





1 #include "unp.h" 

2 int 

3 main(int argc, char **argv) 

4 ( 

5 int listenfd, connfd; 

6 pid t childpid; 

7 socklen_t clilen; 

8 struct sockaddr un cliaddr, servaddr; 

9 void sig chld(int); 

10 listenfd - Socket(AF LOCAL, SOCK STREAM, 0); 

11 unlink(UNIXSTR PATH); 

12 bzero(&servaddr, sizeof(servaddr)); 

13 servaddr.sun family = AF LOCAL; 

14 sStrcpy(servaddr.sun path, UNIXSTR, PATH); 

15 Bind(listenfd, (SA *) &servaddr, sizeof(servaddr) ); 

16 Listen(listenfd, LISTENQ); 

17 Signal(SIGCHLD, sig chld); 

18 for ($7) t1 

19 clilen = sizeof(cliaddr); 

20 if ( (connfd = accept (listenfd, (SA *) &cliaddr, &clilen)) < 0) 
21 if (errno == EINTR) 

22 continue; /* back to for() */ 

23 else 

24 err sys("accept error"); 

25 } 

26 if ( (childpid = Fork()) == 0) { /* child process */ 
27 Close(listenfd) ; /* close listening socket */ 
28 str echo(connfd); /* process request */ 

29 exit(0); 

30 ) 

31 Close(connfd); /* parent closes connected socket */ 
32 ) 

33-3 





unixdomain/unixstrserv01.c 


A—L unixdomain/unixstrserv01.c 


图 15-3 ”使 用 Unix 域 字 节 流 协议 的 回 射 服务 器 程序 


8 ”两 个 套 接 字 地 址 结构 的 数据 类 型 现在 是 sockaddr_un。 
10 ”socket 的 第 一 个 参数 是 AF_LOCAL， 用 以 创建 一 个 Unix 域 字 节 流 套 接 字 。 


11-15 ”unp.h 中 定义 的 UNIXSTR_PATH 常 值 为 /tmp/unix.str。 我 们 首先 unlink 该 路 径 名 , 以 
防 早先 某 次 运行 本 程序 导致 该 路 径 名 已 经 存在 ; 然后 在 调用 bind 前 初始 化 套 接 字 地 址 


结构 。unlink 出 错 没 有 关系 。 


注意 , 这 里 的 bina 调 用 不 同 于 图 15-2 中 的 调用 .这 里 我 们 指定 套 接 字 地 址 结构 的 大 小 (bina 
的 第 三 个 参数 ) 是 sockaddr_un 结 构 总 的 大 小 ， 而 不 是 只 把 路 径 名 占用 的 字 节 数 计算 在 内 。 这 


两 个 长 度 都 是 有 效 的 ， 因 为 路 径 名 必须 以 空 字符 结尾 。 


这 个 main 函 数 的 其 余部 分 和 图 5-12 中 的 相同 ， 而 且 使 用 同样 的 str_echo 函 数 〈 图 5-3)。 


图 15-4 是 使 用 Unix 域 字 节 流 协 议 的 回 射 客户 程序 ， 改 写 自 图 5-4。 
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一 一 一 一 — — — unixdomain/unixstrcliül c 
1 include "unp.h" 


2 int 

3 main(int argc, char **argv) 

4{ 

5 int sockfd; 

6 struct sockaddr un servaddr; 
7 


sockfd = Socket (AF_LOCAL, SOCK_STREAM, 0); 


8 bzero(&servaddr, sizeof (servaddr) ); 
9 servaddr.sun_family = AF_LOCAL; 
0 strcpy(servaddr.sun path, UNIXSTR PATH); 


11 Connect(sockfd, (SA *) &servaddr, sizeof (servaddr)); 
12 str cli(stdin, sockfd); /* do it all */ 
13 exit(0); 





图 15-4 ”使 用 Unix 域 字 节 流 协 议 的 回 射 客户 程序 


含有 服务 器 地 址 的 套 接 字 地 址 结构 现在 是 一 个 sockaadr_un 结 构 。 
7 socket 的 第 一 个 参数 是 AF_LOCRAL。 
8-10 ”填写 套 接 字 地 址 结构 的 代码 与 服务 器 程序 的 相同 ;把 结构 初始 化 成 0， 把 family 成 员 
设置 为 AF_LOCAL， 再 把 路 径 名 复制 到 sun_path 成 员 中 。 
12 str_cli 函 数 和 先前 使 用 的 一 样 〈 图 6-13 是 我 们 开发 的 最 近 一 个 版 本 )。 


15.6 Unix 域 数据 报 客户 /服务 器 程序 。” 


我 们 现在 把 出 自 8.3 节 和 8.5 节 的 UDP 回 射 客户 /服务 器 程序 重新 编写 成 使 用 Unix 域 数据 报 套 
接 字 。 图 15-5 改 写 自 图 8-3 中 的 服务 器 程序 。 


nixdomain/unixstrcli(1.c 





o 











=e unixdomain/unixdgserv01.c 
1 #include “unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd; 
6 struct sockaddr un servaddr, cliaddr; 
7 sockfd = Socket (AF LOCAL, SOCK DGRAM, 0); 
8 unlink (UNIXDG_PATH) ; 
9 bzero(&servaddr, sizeof (servaddr)); 
10 servaddr.sun_family = AF_LOCAL; 
11 strcpy(servaddr.sun path, UNIXDG PATH); 
12 Bind(sockfd, (SA *) &servaddr, sizeof(servadádr)); 
13 Gg echo(sockfd, (SA *) &cliaddr, sizeof(cliaddr)); 
14 ) 
Se unixdomain/unixdgserv01.c 


图 15-5 ”使 用 Unix 域 数据 报 协议 的 回 射 服务 器 程序 
6 ”两 个 套 接 字 地 址 结构 的 数据 类 型 现在 是 sockaddr_un。 
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416 7 ”socket 的 第 一 个 参数 是 AF_LOCAL， 用 于 创建 一 个 Unix 域 数据 报 套 接 字 。 

418 8-12 ”unp.h 中 定义 的 UNIXDG_PATH 常 值 为 /tmp/unix.dg。 我 们 首先 unlink 该 路 径 名 ， 以 防 
早先 某 次 运行 本 程序 导致 该 路 径 名 已 经 存在 ， 然 后 在 调用 bind 之 前 初始 化 套 接 字 地 址 
结构 。unlink 出 错 没有 关系 。 

13 ”使 用 同样 的 ag_echo 函 数 〔 图 8-4)。 
图 15-6 是 使 用 Unix 域 数据 报 协议 的 回 射 客户 程序 ， 改 写 自 图 8-7。 


unixdomain/unixdgcli01.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4{ 
5 int sockfd; 
6 struct sockaddr_un cliaddr, servaddr; 
7 sockfd = Socket(AF LOCAL, SOCK DGRAM, 0); 
8 bzero(&cliaddr, sizeof (cliaddr)); /* bind an address for us */ 
9 cliaddr.sun family - AF. LOCAL; 
10 strcpy(cliaddr.sun path, tmpnam(NULL)); 
11 Bind(sockfd, (SA *) &cliaddr, sizeof(cliaddr)); 
12 bzero(&servaddr, sizeof(servaddr)); /* fill in server's address */ 
13 servaddr.sun family = AF, LOCAL; 
14 strcpy (servaddr.sun, path, UNIXDG PATH); 
15 dg cli(stdin, sockfd, (SA *) &servaddr, sizeof(servaddr)); 
16 exit(0); 
17 ) 
unixdomain/unixdgcli01.c 


图 15-6 ”使 用 Unix 域 数据 报 协议 的 回 射 客户 程序 


6 ”含有 服务 器 地 址 的 套 接 字 地 址 结构 现在 是 一 个 sockadadr_un 结 构 。 我 们 还 分 配 这 样 
的 一 个 结构 以 存放 客户 的 地 址 。 
7 socket 的 第 一 个 参数 是 AF_LOCAL。 
8-11 ”与 UDP 客 户 不 同 的 是 ， 当 使 用 Unix 域 数据 报 协议 时 ， 我 们 必须 显 式 bingd 一 个 路 径 名 
到 我 们 的 套 接 字 ， 这 样 服务 器 才 会 有 能 回 射 应 答 的 路 径 名 。 我 们 调用 empnam 赋 值 一 
个 唯一 的 路 径 名 ， 然 后 把 它 bina 到 该 套 接 字 。 回 顾 15.4 节 ， 我 们 知道 由 一 个 未 绑 定 
的 Unix 域 数据 报 套 接 字 发 送 数据 报 不 会 隐 式 地 给 这 个 套 接 字 捆绑 一 个 路 径 名 。 因 此 
要 是 我 们 省 掉 这 一 步 ， 那 么 服务 器 在 dg_echo 函 数 中 的 recvfrom 调 用 将 返回 一 个 空 
路 径 名 ， 这 个 空 路 径 名 将 导致 服务 器 在 调用 sendto 时 发 生 错 误 。 
i2-14 ”用 来 往 套 接 字 地 址 结构 中 填写 服务 器 那 众 所 周知 路 径 名 的 代码 与 先前 的 服务 器 程序 
一 样 。 
15 ”qag_cli 函 数 与 图 8-8 所 示 的 一 样 。 


15.7 描述 符 传 递 。 | 
当 考 虑 从 一 个 进程 到 另 一 个 进程 传递 打开 的 描述 符 时 ， 我 们 通常 会 想到 : 
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e fork 调 用 返回 之 后 ， 子 进程 共享 父 进程 的 所 有 打开 的 描述 符 ; 
e exec 调 用 执行 之 后 ， 所 有 描述 符 通 常 保持 打开 状态 不 变 。 
第 一 个 例子 中 ， 进 程 先 打开 一 个 描述 符 ， 再 调用 fork， 然 后 父 进程 关闭 这 个 描述 符 ， 子 进 
程 则 处 理 这 个 描述 符 。 这 样 一 个 打开 的 描述 符 就 从 父 进 程 传 递 到 子 进程 。 然 而 我 们 也 可 能 想 让 
子 进程 打开 一 个 描述 符 并 把 它 传递 给 父 进程 。 
当前 的 Unix 系 统 提供 了 用 于 从 一 个 进程 向 任 一 其 他 进程 传递 任 一 打开 的 描述 符 的 方法 。 也 
就 是 说 ， 这 两 个 进程 之 间 无 需 存在 灯 缘 关系 ， 辟 如 父子 进程 关系 。 这 种 技术 要 求 首先 在 这 两 个 
进程 之 间 创 建 一 个 Unix 域 套 接 字 ， 然 后 使 用 sendmsg 跨 这 个 套 接 字 发 送 一 个 特殊 消息 。 这 个 消 
息 由 内 核 来 专门 处 理 ， 会 把 打开 的 描述 符 从 发 送 进程 传递 到 接收 进程 。 
TCPv3 第 18 章 详细 讲解 了 4.4BSD 内 核 在 跨 Unix 域 套 接 字 传 递 打开 的 描述 符 过 程 中 执行 的 
神奇 操作 。 
SVR4 内 核 使 用 另 一 种 不 同 的 技术 来 传递 打开 的 描述 符 : APUE 的 15.5.1 节 ”中 讲解 的 
I_SENDFD 和 IT_RECVFD 这 两 个 ioct1 命 令 。 然 而 进程 仍然 可 以 使 用 Unix 域 套 接 字 访 问 这 个 内 
核 特 性 。 在 本 书 中 我 们 介绍 使 用 Unix 域 套 接 字 的 描述 符 传递 方法 ， 因 为 这 是 最 便于 移植 的 编 
程 技术 : 这 种 技术 不 论 是 在 源 自 Berkeley 的 内 核 上 、 还 是 在 SVR4 内 核 上 都 能 工作 ， 而 使 用 
I_SENDFD 和 I_RECVFD 这 两 个 ijoct1 命 令 的 技术 只 能 用 在 SVR4 内 核 上 . 
4.4BSD 的 技术 允许 单个 sendmsg 调 用 传递 多 个 描述 符 , 而 SVR4 的 技术 一 次 只 能 传递 单个 
描述 符 。 我 们 所 有 的 例子 都 是 每 次 传递 一 个 描述 符 。 


在 两 个 进程 之 间 传 递 描述 符 涉及 的 步骤 如 下 。 

(1) 创建 一 个 字 节 流 的 或 数据 报 的 Unix 域 套 接 字 。 

如 果 目 标 是 fork 一 个 子 进程 ， 让 子 进程 打开 待 传递 的 描述 符 ， 再 把 它 传递 回 父 进程 ， 那 么 
父 进程 可 以 预先 调用 socketpair 创 建 一 个 可 用 于 在 父子 进程 之 间 交 换 描述 符 的 流 管道 。 


如 果 进 程 之 间 没 有 亲缘 关系 ， 那 么 服务 器 进程 必须 创建 一 个 Unix 域 字 节 流 套 接 字 ，bind 一 


个 路 径 名 到 该 套 接 字 ， 以 允许 客户 进程 connect 到 该 套 接 字 。 然 后 客户 可 以 向 服务 器 发 送 一 个 
打开 某 个 描述 符 的 请 求 ， 服 务 器 再 把 该 描述 符 通 过 Unix 域 套 接 字 传 递 回 客户 。 客 户 和 服务 器 之 
间 也 可 以 使 用 Unix 域 数据 报 套 接 字 ， 不 过 这 么 做 没什么 好 处 ， 而 且 数 据 报 还 存在 被 丢弃 的 可 能 
性 。 在 本 节 的 例子 中 ， 客 户 和 服务 器 之 间 使 用 字 节 流 套 接 字 。 

(2) 发 送 进程 通过 调用 返回 描述 符 的 任 一 Unix 函 数 打 开 一 个 描述 符 ， 这 些 函 数 的 例子 有 
open、pipe、mkfifo、socket 和 accept。 可 以 在 进程 之 间 传 递 的 描述 符 不 限 类 型 ， 这 就 是 我 
们 称 这 种 技术 为 “描述 符 传递 ”而 不 是 “文件 描述 符 传递 ”的 原因 。 

(3) 发 送 进程 创建 一 个 msghar 结 构 (14.5 节 )， 其 中 含有 待 传递 的 描述 符 。POSIX 规 定 描述 
符 作为 辅助 数据 (msghadr 结 构 的 msg_control 成 员 ， 见 14.6 节 ) 发 送 ， 不 过 较 老 的 实现 使 用 
msg_accrights 成 员 。 发 送 进 程 调用 sendmsg 跨 来 自 步骤 1 的 Unix 域 套 接 字 发 送 该 描述 符 。 至 此 
我 们 说 这 个 描述 符 “ 在 飞行 中 (in flight)”。 即 使 发 送 进程 在 调用 sendmsg 之 后 但 在 接收 进程 调 
用 recvmsg〈 见 下 一 步骤 ) 之 前 关闭 了 该 描述 符 ， 对 于 接收 进程 它 仍 然 保 持 打开 状态 。 发 送 一 
个 描述 符 会 使 该 描述 符 的 引用 计数 加 1。 

(4) 接收 进程 调用 recvmsg 在 来 自 步骤 1 的 Unix 域 套 接 字 上 接收 这 个 描述 符 。 这 个 描述 符 在 
接收 进程 中 的 描述 符号 不 同 于 它 在 发 送 进程 中 的 描述 符号 是 正常 的 。 传 递 一 个 描述 符 并 不 是 传 
递 一 个 描述 符号 ， 而 是 涉及 在 接收 进程 中 创建 一 个 新 的 描述 符 ， 而 这 个 新 描述 符 和 发 送 进程 中 
飞行 前 的 那个 描述 符 指向 内 核 中 相同 的 文件 表 项 。 


(D 此 处 为 APUE 第 1 版 英文 原版 书 的 节 号 ，APUE 第 2 版 为 17.4.1 节 。 一 一 编者 注 
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客户 和 服务 器 之 间 必 须 存 在 某 种 应 用 协议 , 以便 描述 符 的 接收 进程 预先 知道 何 时 期 待 接 收 。 
如 果 接 收 进程 调用 recvmsg 时 没有 分 配 用 于 接收 描述 符 的 空间 ， 而 且 之 前 已 有 一 个 描述 符 被 传 
递 并 正 等 着 被 读 取 ， 这 个 早先 传递 的 描述 符 就 会 被 关闭 TCPv2 第 518 页 )。 另 外 ， 在 期 待 接收 
描述 符 的 recvmsg 调 用 中 应 该 避免 使 用 MSG_PEEK 标 志 ， 否 则 后 果 不 可 预料 。 
描述 符 传 递 的 例子 

我 们 现在 给 出 一 个 描述 符 传递 的 例子 。 这 是 一 个 名 为 mycat 的 程序 ， 它 通过 命令 行 参数 取 
得 一 个 路 径 名 , 打开 这 个 文件 , 再 把 文件 的 内 容 复 制 到 标准 输出 。 该 程序 调用 我 们 名 为 my_open 
的 函数 ， 而 不 是 调用 普通 的 Unix open 函 数 。my_open 创 建 一 个 流 管道 ， 并 调用 fork 和 exec 启 
动 执 行 另 一 个 程序 ， 期 待 输出 的 文件 由 这 个 程序 打开 。 该 程序 随后 必须 把 打开 的 描述 符 通过 流 
管道 传递 回 父 进程 。 

图 15-7 展 示 上 述 步 又 (1); 通过 调用 socketpair 创 建 一 个 流 管道 后 的 mycat 进 程 。 我 们 以 
[0] 和 [1] 标 示 socketpair 返 回 的 两 个 描述 符 。 


mycat 


tO] [1] 


图 15-7 使 用 socketpair 创 建 流 管道 后 的 mycat 进 程 


mycat 进 程 接 着 调用 fork, 子 进程 再 调用 exec 执 行 openfile 程 序 。 父 进程 关闭 [1] 描述 符 ， 
子 进程 关闭 [0] 描 述 符 。( 流 管道 的 两 端 之 间 没 有 差异 ， 我 们 也 可 以 让 子 进程 关闭 [1] ， 让 父 进 
程 关 闭 [0]。) 图 15-8 展 示 了 如 此 处 理 后 的 结果 。 
exit (退出 状态 ) 


mycat openfile 
fork, 
exec (MOTT BR) 





一 描述 符 
15-8 ”启动 执行 openfile 程 序 后 的 mycat 进 程 


父 进 程 必须 给 openfile 程 序 传递 三 条 信息 :(1) 待 打开 文件 的 路 径 名 ，(2) 打 开 方式 (只 读 、 
读 写 或 只 写 )，(3) 流 管道 本 进程 端 〈 图 中 标 为 [11 ) 对 应 的 描述 符号 。 我 们 选择 将 这 三 条 信息 作 
为 命令 行 参 数 在 调用 exec 时 进行 传递 。 当 然 我 们 也 可 以 通过 流 管 道 将 这 三 条 信息 作为 数据 发 
送 。openfile 程 序 在 通过 流 管 道 发 送 回 打 开 的 描述 符 后 便 终 止 。 该 程序 的 退出 状态 告知 父 进 程 
文件 能 否 打开 ， 若 不 能 则 同时 告知 发 生 了 什么 类 型 的 错误 。 

通过 执行 另 一 个 程序 来 打开 文件 的 优势 在 于 ， 另 一 个 程序 可 以 是 一 个 setuid 到 root 的 程序 ， 
能 够 打开 我 们 通常 没有 打开 权限 的 文件 。 该 程序 能 够 把 通常 的 Unix 权 限 概念 《用户 、 用 户 组 和 
其 他 用 户 ) 扩展 到 它 想 蓝 的 任何 形式 的 访问 检查 。 

我 们 以 mycat 程 序 开始 讨论 ， 如 图 15-9 所 示 。 
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et unixdomain/mycat.c 

1 #include "unp.h" 

2 int my open(const char *, int); 

3 int 

4 main(int argc, char **argv) 

5 { 

6 int fd, n; 

7 char buff [BUFFSIZE] ; 

8 if (argc != 2) 

9 err quit("usage: mycat <pathname>") ; 

10 if ( (fd = my open(argv[1)], O RDONLY)) < 0) 

11 err sys("cannot open $s", argv[1]); 

12 while ( (n = Read(fd, buff, BUFFSIZE)) > 0) 

13 Write(STDOUT FILENO, buff, n); 

14 exit(0); 

15 } 

unixdomain/mycat.c 








图 15-9 mycat FEY: 把 一 个 文件 复制 到 标准 输出 


如 果 把 其 中 的 my_open 调 用 换 成 ocpen 调 用， 这 个 简单 的 程序 就 只 是 把 一 个 文件 复制 到 标准 


输出 。 


图 15-10 所 示 的 my_open 函 数 有 意 编写 成 有 着 和 通常 的 Unix open 函 数 一 致 的 调用 接口 。 它 
取 两 个 参数 ， 即 一 个 路 径 名 和 一 个 打开 方式 ( 壁 如 意 为 只 读 的 0_RDONLY)， 打 开 该 文件 ， 然 后 

















返回 一 个 描述 符 。 
unixdomain/myopen.c 
1 #incluGe "unp.h" 
2 int 
3 my open(const char *pathname, int mode) 
4 { 
5 int fd, sockfd[2], status; 
6 pid_t childpid; 
7 char c, argsockfd[10], argmode[10]; 
8 Socketpair(AF LOCAL, SOCK STREAM, 0, sockfd); 
9 if ( (childpid - Fork()) -- 0) ( /* child process */ 
10 Close (sockfd[0]); 
11 snprintf(argsockfd, sizeof(argsockfd), "td", sockfd[1]): 
12 snprintf(argmode, sizeof(argmode), "%d", mode); 
13 execl("./openfile", "openfile", argsockfd, pathname, argmode, 
14 (char *) NULL); 
15 err sys("execl error"); 
16 } 
17 /* parent process - wait for the child to terminate */ 
18 Close(sockfd(11); /* close the end we don't use */ 
19 Waitpid(childpid, &status, 0); 
20 if (WIFEXITED(status) == 0) 
21 err quit("child did not terminate"); 
22 if ( (status = WEXITSTATUS(status)) == 0) 
23 Read fd(sockfd[0], &c, 1, &fd); 
24 else ( 
25 errno - status; /* set errno value from child's status */ 
26 fd = -1; 
27 ) 
28 Close (sockfd[0]); 
29 return(fd); 
30 ) 
unixdomain/myopen.c 


图 15-10 my opentAAX: 打开 一 个 文件 并 返回 其 描述 符 


423 
i 
424 
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创建 流 管 道 
8 调用 socketpair 创 建 一 个 流 管道 ， 返 回 两 个 描述 符 : sockfa[0] 和 sockfa[1]。 这 是 
图 15-7 所 示 的 状态 。 
fork 并 exec 
9-16 ”调用 fork， 子 进程 然后 关闭 流 管道 的 一 端 。 流 管道 另 一 端的 描述 符号 格式 化 输出 到 
argsockfd 字 符 数 组 , 打开 方式 则 格式 化 输出 到 argmode 字 符 数 组 ,这 里 调用 snprintf 
进行 格式 化 输出 是 因为 exec 的 参数 必须 是 字符 串 。 子 进程 随后 调用 execl 执 行 
openfile 程 序 。 该 函数 不 会 返回 , 除非 它 发 生 错 误 。 一 旦 成 功 , openfile 程序 的 main 
函数 就 开始 执行 。 
父 进程 等 待 子 进程 
17-22 ” 父 进程 关闭 流 管道 的 另 一 端 并 调用 waitpid 等 待 子 进程 终止 。 子 进程 的 终止 状态 在 
scatus 变 量 中 返回 ， 我 们 首先 检查 该 程序 是 否 正常 终止 (也 就 是 说 并 非 被 某 个 信号 终 
止 ) 若 正常 终止 则 接着 调用 wEXxITSTATUS 宏 把 终止 状态 转换 成 退出 状态 ,退出 状态 的 
取 值 在 0 一 25$ 之 间 。 我 们 马上 会 看 到 ， 如 果 openfile 程 序 在 打开 所 请 求 文件 时 碰 到 一 
个 错误 ， 它 将 以 相应 的 errno 值 作为 退出 状态 终止 自 身 。 
接收 描述 符 
23 ”接着 给 出 的 read_fd 函 数 通过 流 管道 接收 描述 符 。 除 了 描述 符 外 ， 我 们 还 读 取 1 个 字 节 
的 数据 ， 但 不 对 数据 进行 任何 处 理 。 
通过 流 管道 发 送 和 接收 描述 符 时 ，, 我们 总 是 发 送 至 少 1 个 字 节 的 数据 ， 即便 接收 进程 不 对 
数据 做 任何 处 理 。 要 是 不 这 么 做 ,接收 进程 将 难以 辨别 read_fd 的 返回 值 为 0 意味 着 “没有 数 
据 (但 是 可 能 伴 有 一 个 描述 符 ) 还 是 “文件 已 结束 ”。 
图 15-11 给 出 了 reag_f6 函 数 ， 它 调用 recvmsg 在 一 个 Unix 域 套 接 字 上 接收 数据 和 描述 
符 。 该 函数 的 前 3 个 参数 和 read 函 数 一 样 ， 第 四 个 参数 是 指向 某 个 整数 的 指针 ， 用 以 
返回 收取 的 描述 符 。 
9-26 本 函数 必须 处 理 两 个 版 本 的 recvmsg， 一 个 使 用 msg_control 成 员 ， 另 一 个 使 用 
msg_accrights 成 员 。 如 果 所 支持 的 是 msg_control 版 本 , 我 们 的 config.h 头 文件 (图 
D-2) 就 会 定义 常量 HAVE_MSGHDR_MSG_CONTROL。 
确保 msg_control 正 确 对 齐 
10-13 msg_control 缓 冲 区 必须 为 cmsghdr 结 构 适当 地 对 齐 。 单 纯 分 配 一 个 字符 数组 是 不 够 
的 。 这 里 我 们 声明 了 由 一 个 cmsghar 结 构 和 一 个 字符 数组 构成 的 一 个 联合 ， 这 个 联合 
确保 字符 数组 正确 对 齐 。 确 保 对 齐 的 另 一 个 方法 是 调用 malloc， 不 过 需要 在 函数 返回 
前 释放 所 分 配 的 内 存 空间 。 
27-45 ”调用 recvmsg。 如 果 返 回 了 辅助 数据 ， 那 么 其 格式 应 如 图 14-13 所 示 。 我 们 要 验证 辅助 
数据 的 长 度 、 级 别 和 类 型 ， 然 后 从 中 取出 新 建 的 描述 符 ， 并 通过 调用 者 给 出 的 recvfa 
指针 返回 该 描述 符 。cMsGc_Dama 返 回 一 个 unsigneda char 指 针 ， 指 向 辅助 数据 对 象 的 
cmsg_dqata 成 员 。 我 们 把 它 类 型 强制 转换 〈casting) 成 一 个 int 指 针 ， 并 取出 它 指向 的 
整数 描述 符 。 
如 果 所 支持 的 是 较 老 的 msg_accrights 成 员 ， 那么 它 的 长 度 应 该 是 一 个 整数 的 大 小 ， 
从 中 取出 的 新 建 描述 符 同样 通过 调用 者 给 出 的 recvfa 指 针 返 回 。 
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lib/read fd.c 

1 #include "unp.h" 

2 ssize t 

3 read fd(int fd, void *ptr, size t nbytes, int *recvfd) 

4 { 

5 struct msghdr msg; 

6 struct iovec iov[1]; 

? ssize t n; 

8 #ifdef HAVE MSGHDR MSG, CONTROL 

9 union { 

10 struct cmsghdr cm; 

11 char control (CMSG_SPACE (sizeof (int))]; 

12 } control_un; 

13 struct cmsghdr *cmptr; 

14 msg.msg control - control un.control; 

15 msg.msg_controllen = sizeof(control, un.control); 

16 #else 

17 int newfd; 

18 msg.msg accrignts = (caddr t) &newfd; 

19 msg.msg_accrightslen = sizeof(int); 

20 £endif 

21 msg.msg name - NULL; 

22 msg.msg namelen - 0; 

23 iov(0].iov base - ptr; 

24 iov[0J.iov len = nbytes; 

25 msg.msg iov - iov; 

26 msg.msg iovlen - 1; 

27 if ( (n = recvmsg(fd, &msg, 0)) <= 0) 

28 return(n); 
29 #ifdef HAVE, MSGHDR, MSG, CONTROL 

30 if ( (cmptr = CMSG FIRSTHDR(&msg)) != NULL && 

3i cmptr-»cmsg len -- CMSG LEN(sizeof(int))) ( 

32 if (cmptr-»cmsg level !- SOL SOCKET) 

33 err_quit ("control level !- SOL SOCKET"); 

34 if (cmptr-»cmsg type !- SCM RIGHTS) 

35 err quit("control type !- SCM RIGHTS"); 

36 *recvfd = *((int *) CMSG DATA(cmptr)); 

37 } else 

38 *recvfd = -1; /* descriptor was not passed */ 
39 #else 

40 if (msg.msg accrightslen == sizeof(int)) 

41 *recvfd - newfd; 

42 else 

43 *recvfd = -1; /* descriptor was not passed */ 
44 #endif 

45 return (n); 

46 } 

lib/read fd.c 
图 15-11 read_fd 函 数 ， 接 收 数据 和 一 个 描述 符 


图 15-12 给 出 了 openfile 程 序 。 它 取 三 个 必须 传 入 的 命令 行 参数 ， 并 调用 通常 的 open 函 数 。 
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unixdomain/openfile.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4t 
5 int fd; 
6 if (argc != 4) 
7 err_quit ("openfile <sockfd#> <filename> <mode>"); 
8 if ( (fd = open(argv[2], atoi(argv[31]))) < 0) 
9 exit( lerrno » 0) ? errno : 255 ); 
10 if (write fd(atoi(argv[1]), "", 1, fd) < 0) 
11 exit( (errno » 0) ? errno : 255 ); 
12 exit(0); 
13 ) 
unixdomain/openfile.c 
图 15-12 openfile 函 数 : 打开 一 个 文件 并 传递 回 其 描述 符 
命令 行 参数 
7~12 三 个 命令 行 参数 中 的 两 个 早先 由 my_open 格 式 化 成 字符 串 ， 需 使 用 atoi 把 它们 转换 回 
wR. 
打开 文件 
9-10 调用 open 打 开 文 件 。 如果 出 错 , 与 open 错误 对 应 的 errno 值 就 作为 进程 退出 状态 返回 。 
传递 回 描述 符 


11-12 由 接着 要 讲 到 的 write_fa 函 数 把 描述 符 传 递 回 父 进程 之 后 ， 本 进程 立即 终止 。 本 章 早 
先 说 过 ， 发 送 进程 可 以 不 等 落地 就 关闭 已 传递 的 描述 符 ( 调 用 exit 时 发 生 )， 因 为 内 
核 知 道 该 描述 符 在 飞行 中 ， 从 而 为 接收 进程 保持 其 打开 状态 。 
退出 状态 必须 在 0 到 255 之 间 。 目 前 最 大 的 errno 值 约 为 150. 另 一 个 错误 返 送 方 法 不 要 求 
errno 值 必须 小 于 256， 就 是 作为 sendmsg 调 用 中 的 普通 教 据 传递 回 错误 代码 。 
图 15-13 给 出 了 作为 本 例子 最 后 一 个 函数 的 write_fq, 它 调用 sendmsg 跨 一 个 Unix 域 套 接 字 
发 送 一 个 描述 符 〈 以 及 可 选 的 数据 ， 但 本 函数 没有 采用 它们 )。 




















—— M PUR ——— lib^write fd.c 
1 #include *unp.h" 
2 ssize t 
3 write fd(int fd, void *ptr, size t nbytes, int sendfd) 
4 { 
5 struct msghdr msg; 
6 struct iovec iov[1]; 
7 #ifdef HAVE MSGHDR. MSG, CONTROL 
8 union ( 
9 struct cmsghdr cm; 
10 char control [CMSG, SPACE (sizeof (int))]; 
11 ) control, un; 
12 struct cmsghdr  *cmptr; 
13 msg.msg control - control, un.control; 
14 msg.msg_controllen = sizeof (control, un.control); 





图 1$-13 write fam: 调用 sendmsg 传 递 一 个 描述 符 
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15 cmptr = CMSG_FIRSTHDR (&msq) ; 


16 cmptr-»cmsg len = CMSG_LEN (sizeof (int)); 
17 cmptr-»cmsg level = SOL, SOCKET; 
18 cmptr-»cmsg type - SCM RIGHTS; 
19 *((int *) CMSG DATA(cmptr)) = sendfd; 
20 #else 
21 msg.msg accrights = (caddr t) & sendfd; 
22 msg.msg accrightslen - sizeof(int); 
23 #endif 
24 msg.msg name = NULL; 
25 msg.msg_namelen = 0; 
26 iov[0].iov base - ptr; 
27 iov[0].iov_len = nbytes; 
28 mSg.msg, iov = iov; 
29 msg.msg iovlen - 1; 
30 return(sendmsg(fd, &msg, 0)); 
31 } 
M ——— — — — lib/write fdc 
图 1$-13 (HD 


与 read_fd 函 数 一 样 ， 本 函数 也 必须 既 能 处 理 辅助 数据 又 能 处 理 较 老 的 访问 权限 。 不 论 在 
哪 种 情况 下 ， 本 函数 都 先 初始 化 一 个 msghar 结 构 ， 再 调用 sendmsg。 

我 们 将 在 28.7 节 展示 一 个 在 无 亲缘 关系 进程 之 间 传 递 描述 符 的 例子 ,再 在 30.9 节 中 展示 一 个 
在 有 亲缘 关系 进程 之 间 传 递 描述 符 的 例子 。 它 们 将 使 用 上 述 read_fa 和 write_fd 函 数 。 


158 ”接收 发 送 者 的 凭证 —— aie 


图 14-13 展 示 的 可 通过 Unix 域 套 接 字 作为 辅助 数据 传递 的 另 一 种 数据 是 用 户 凭证 〈user 
credential)。 作 为 辅助 数据 的 凭证 其 具体 封装 方式 和 发 送 方式 往往 特定 于 操作 系统 。 本 节 只 讨论 
FreeBSD 的 凭证 传递 ， 不 过 其 他 Unix 变 体 也 是 类 似 的 《难点 通常 在 确定 使 用 哪个 结构 上 )。 赁 证 
传递 仍然 是 一 个 尚未 普及 且 无 统一 规范 的 特性 ， 然 而 因为 它 是 对 Unix 域 协议 的 一 个 尽管 简单 却 
也 重要 的 补充 ， 所 以 我 们 还 是 要 介绍 一 下 它 。 当 客户 和 服务 器 进行 通信 时 ， 服 务 器 通常 需 以 一 
定 手段 获悉 客户 的 身份 ， 以 便 验 证 客户 是 否 有 权限 请 求 相 应 服务 。 

FreeBSD 使 用 在 头 文件 <sys/socket .h> 中 定义 的 cmsgcreG 结 构 传 递 任 证。 


struct cmsgcred ( 





pid t cmcred pid; /* PID of sending process */ 

uid t cmcred uid; /* real UID of sending process */ 

uid t cmcred euid; /* effective UID of sending process */ 
gid t cmcred, gid; /* read GID of sending process */ 
short cmcred ngroups; /* number of groups */ 

gid t cmcred groups [CMGROUP. MAX] ; /* groups */ 


5 

CMGROUP. MAX fs (£I #8 916. cmcred ngroups h AE B A1, ifj H.cmered ngroups tH 
的 第 一 个 元 素 是 有 效 组 ID。 

凭证 信息 总 是 可 以 通过 Unix 域 套 接 字 在 两 个 进程 间 传递 ， 然 而 发 送 进程 发 送 它 们 时 往往 需 
做 特殊 的 封装 处 理 ， 接 收 进程 接收 它们 时 也 往往 需 做 特殊 的 接受 处 理 〈 例 如 打开 套 接 字 选项 )。 
在 FreeBSD 系 统 中 , 接收 进程 只 需 在 调用 recvmsg 同 时 提供 一 个 足以 存放 凭证 的 辅助 数据 空间 即 
可 ， 如 图 15-14 给 出 的 例子 所 示 。 而 发 送 进程 调用 senamsg 发 送 数 据 时 必须 作为 辅助 数据 包含 一 


A 
oo 
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个 cmsgcred 结 构 才 会 随 数据 传递 凭证 。 需 注意 的 是 ， 尽 管 FreeBSD 要 求 凭证 发 送 进程 必须 提供 
其 结构 ， 其 内 容 却 是 由 内 核 填写 的 ， 发 送 进程 无 法 伪造 。 这 么 做 使 得 通过 Unix 域 套 接 字 传 递 任 
证 成 为 服务 器 验证 客户 身份 的 可 靠 手段 。 


例子 


作为 凭证 传递 的 一 个 例子 ， 我 们 把 上 一 节 中 的 Unix 域 字 节 流 服 务 器 程序 改 为 服务 器 请 求 客 
户 的 用 户 凭 证。 图 15-14 给 出 了 名 为 reaa_cred 的 新 函数 ， 它 和 read 类 似 ， 不 过 同时 返回 一 个 含 
有 发 送 进程 的 凭证 的 cmsgcreq 结 构 。 


unixdomain/readcred.c 





1 #include *"unp.h" 


2 #define CONTROL LEN (sizeof(struct cmsghdr) + sizeof(struct cmsgcred)) 


3 ssize t 

4 read cred(int fd, void *ptr, size t nbytes, struct cmsgcred *cmsgcredptr) 
5 { 

6 struct msghdr msg; 

7 struct iovec iov[1]; 

B char control[CONTROL, LEN] ; 

9 int n; 

10 msg.msg name - NULL; 

11 msg.msg namelen - 0; 

12 iov[0].iov base - ptr; 

13 iov[0]1.iov len = nbytes; 

14 msg.msg iov - iov; 

15 msg.msg iovlen - 1; 

16 msg.msg control - control; 

17 msg.msg controllen = sizeof (control); 

18 msg.msg flags - 0; 

19 if ( (n = recvmsg(fd, &msg, 0)) < 0) 

20 return (n); 

21 cmsgcredptr-»cmcred ngroups = 0; /* indicates no credentials returned */ 
22 if (cmsgcredptr && msg.msg controllen > 0) { 

24 struct cmsghdr  *cmptr - (struct cmsghdr *) control; 

24 if (cmptr-»cmsg len « CONTROL LEN) 

25 err quit("control length = %d", cmptr-»cmsg len); 

26 if (cmptr-»cmsg level !- SOL, SOCKET) 

27 err quit("control level !- SOL SOCKET"); 

28 if (cmptr-»cmsg type !- SCM CREDS) 

29 err quit("control type != SCM CREDS"); 

30 memcpy (cmsgcredptr, CMSG DATA(cmptr), sizeof(struct cmsgcred)); 
31 ) 

32 return (n); 


unixdomain/readcred.c 





15-14. read_cred 函 数 : 读 取 并 返回 发 送 者 的 凭证 


3-4 ”该 函数 的 前 3 个 参数 和 read 函 数 一 样 ， 第 四 个 参数 是 指向 某 个 cmsgcred 结 构 的 一 个 指 
针 ， 用 以 返回 客户 的 凭证 。 返 回 的 辅助 数据 格式 如 图 14-13 所 示 ， 不 过 其 中 的 fcreadf{) 

应 该 改 为 cmsgcred{}。 
22-31， 如 果 有 和 凭证 返回 ， 我 们 就 验证 辅助 数据 的 长 度 、 级 别 和 类 型 ， 然 后 从 中 取出 凭证 复制 


24-25 
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到 由 调用 者 指定 的 cmsgcreG 结 构 。 如 果 无 返回 和 凭证， 我 们 就 将 这 个 结构 置 0。 既 然 用 
户 组 的 数目 Ccmcred_ngroups) 总 是 至 少 为 1， 其 值 为 0 就 是 向 调用 者 指出 内 核 未 返 


回 凭 证 。 


图 15-3 给 出 的 回 射 服务 器 程序 main 函 数 没有 改动 。 图 15-15 是 新 版 的 str_echo 函 数 ， 它 改 





m 


#include "unp.h" 


2 ssize t read cred(int, void *, size t, struct cmsgcred *); 


3 void 

4 str echol(int sockfd) 

St 

6 ssize t n; 

7 int i; 

8 char buf [MAXLINE] ; 

9 struct cmsgcred cred; 

10 again: 

11 while ( (n - read cred(sockfd, buf, MAXLINE, &cred)) » 0) ( 
12 if (cred.cmcred, ngroups -- 0) ( 

13 printf("(no credentials returned) Mn"); 

14 ) else ( 

15 printf("PID of sender = %d\n", cred.cmcred pid); 
16 printf("real user ID = %d\n", cred.cmcred uid); 
17 printf("real group ID = %d\n", cred.cmcred gid); 
18 printf("effective user ID = %d\n", cred.cmcred euid); 
19 printf("%d groups:", cred.cmcred ngroups - 1); 
20 for (i = 1; i < cred.cmcred ngroups; i++) 

21 printf(" $d", cred.cmcred groups[i]); 

22 printf ("Mn"); 

23 ) 

24 Writen(sockfd, buf, n); 

25 ) 

26 if (n « 0 && errno -- EINTR) 

27 goto again; 

28 else if (n « 0) 

29 err sys("str echo: read error"); 


图 15-15 ”str_echo 函 数 : 请 求 客户 的 凭证 


11-23 ”如 果 有 凭证 返回 就 显示 它们 。 
循环 的 其 余部 分 没有 改动 。 这 段 代码 把 来 自 客户 的 数据 读 入 缓冲 区 ， 再 把 缓冲 区 中 的 


数据 写 出 给 客户 。 


写 自 图 5-3。 该 函数 由 子 进程 在 父 进程 接受 了 一 个 新 的 客户 连接 并 调用 fork 之 后 调用 。 


unixdomain/strecho.c 


unixdomain/strecho.c 


图 15-4 中 的 客户 程序 只 有 稍 许 改动 ， 即 在 调用 senGmsg 时 传 入 一 个 空 的 cmsgcred 结 构 ( 该 


结构 由 内 核 自 动 填写 )。 


在 运行 客户 之 前 ， 我 们 可 以 使 用 ia 命令 查看 个 人 的 当前 凭证 。 


freebsd $ id 
uid=1007 (andy) gid-1007(andy) groups=1007 (andy), 0 (wheel) 


在 一 个 窗口 中 运行 服务 器 ， 再 在 另 一 个 窗口 中 运行 客户 一 次 ， 服 务 器 产生 如 下 输出 。 


freebsd % unixstrserv02 
PID of sender = 26881 


432 
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real user ID - 1007 

real group ID - 1007 
effective user ID - 1007 
2 groups: 1007 0 


这 些 信 息 一 直到 客户 向 服务 器 发 出 数据 后 才 输 出 。 它 们 与 ia 命令 给 出 的 结果 相 匹 配 。 
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15.9 小 结 


Unix 域 套 接 字 是 客户 和 服务 器 在 同一 个 主机 上 的 IPC 方 法 之 一 。 与 IPC 其 他 方法 相 比 ，Unix 
域 套 接 字 的 优势 体现 在 其 API 几 乎 等 同 于 网 络 客户 /服务 器 使 用 的 API。 与 客户 和 服务 器 在 同一 个 
主机 上 的 TCP 相 比 ，Unix 域 字 节 流 套 接 字 的 优势 体现 在 性 能 的 增长 上 。 

我 们 把 自己 的 TCP 和 UDP 回 射 客户 和 服务 器 程序 修改 成 了 使 用 Unix 域 协议 的 版 本 ， 其 中 唯 
一 的 主要 差别 是 ， 必 须 binqd 一 个 路 径 名 到 UDP 套 接 字 (对 应 Unix 域 数据 报 套 接 字 〉 的 客户 ， 以 
使 UDP 服 务 器 有 发 送 应 答 的 目的 地 。 

同一 个 主机 上 客户 和 服务 器 之 间 的 描述 符 传递 是 一 个 非常 有 用 的 技术 ， 它 通过 Unix 域 套 接 
字 发 生 。 我 们 在 15.7 节 中 展示 了 从 一 个 子 进程 到 其 父 进程 传递 回 一 个 描述 符 的 一 个 例子 。 我 们 
还 将 在 28.7 节 中 展示 客户 和 服务 器 没有 亲缘 关系 的 一 个 例子 , 在 30.9 节 中 展示 从 一 个 父 进 程 到 一 
个 子 进程 传递 描述 符 的 例子 。 


15.1 如 果 一 个 Unix 域 服务 器 在 调用 bind 之 后 调用 unlink， 将 会 发 生 什么 ? 

15.2. 如果 一 个 Unix 域 服务 器 在 终止 时 不 unlink 它 的 众所周知 路 径 名 , 并 且 有 一 个 客户 试图 在 该 服务 器 终 
止 后 某 个 时 刻 connect 该 服务 器 ， 将 会 发 生 什么 ? 

15.3 ”如 下 修改 图 11-11: 显示 对 端的 协议 地 址 后 调用 sleep (5) ， 并 在 每 次 read 返 回 一 个 正 值 时 显示 由 
read 返 回 的 字 节 数 。 
如 下 修改 图 11-14: 对 于 即将 发 送 给 客户 的 结果 中 的 每 个 字 节 分 别 调用 write。( 我 们 已 在 习题 1.5 的 
解答 中 讨论 过 类 似 的 修改 。) 在 同一 个 主机 上 使 用 TCP 运 行 这 两 个 客户 和 服务 器 程序 。 客 户 读 入 了 多 
少 个 字 节 ? 
在 同一 个 主机 上 使 用 Unix 域 套 接 字 运行 这 两 个 客户 和 服务 器 程序 。 结 果 是 否 有 所 变化 ? 
然后 把 服务 器 程序 中 的 write 调用 改 为 send 调 用 ， 并 指定 MsG_EOR 标 志 。( 完 成 本 习题 需要 一 个 源 
自 Berkeley 的 实现 。) 在 同一 个 主机 上 使 用 Unix 域 套 接 字 运行 经 修改 的 这 两 个 客户 和 服务 器 程序 。 结 
果 是 否 有 所 变化 ? 

15.4 ”编写 一 个 程序 以 确定 图 4-10 中 展示 的 值 。 方 法 之 一 是 先 创建 一 个 流 管道 ， 再 fork 成 一 个 父 进程 和 一 
个 子 进程 。 父 进程 进入 一 个 for 循 环 , 把 backlog 从 0 递增 到 14。 每 次 循环 回来 后 , 父 进程 首先 把 backlog 
的 值 写 入 流 管道 。 子 进程 读 入 该 值 ， 创 建 一 个 套 接 字 ， 捆 绑 环 回 地 址 到 其 上 ， 指 定 backlog 为 所 读 入 
的 值 调 用 1isten， 从 而 得 到 一 个 监听 套 接 字 。 子 进程 接着 通过 写 流 管道 告知 父 进程 自己 已 准备 好 。 
父 进 程 然后 尝试 建立 尽 可 能 多 的 连接 ， 以 检测 何 时 因 connect 阻 塞 而 击 中 backlog 极 限 。 父 进程 可 以 
设置 一 个 2 秒 钟 的 alarm 报 警 时 钟 以 检测 阻塞 的 connect。 子 进程 从 不 调用 accept， 这 样 内 核 将 排 
队 来 自 父 进 程 的 所 有 连接 。 当 父 进 程 alarm 时 钟 报警 时 ， 它 可 以 从 循环 计数 器 获悉 击 中 backlog 极 限 
的 是 哪个 connect。 父 进程 随后 关闭 所 有 用 于 连接 尝试 的 套 接 字 ， 并 把 backlog 的 下 一 个 值 写 入 流 管 
道 供 子 进程 读 取 。 子 进程 读 入 这 个 新 值 后 ， 关 闭 原 来 的 监听 套 接 字 ， 创 建 一 个 新 的 监听 套 接 字 ， 重 
新 开始 上 述 过 程 。 

15.5 验证 删 掉 图 15-6 中 的 bina 调 用 将 导致 服务 器 发 生 错误 。 
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16.4 概述 
套 接 字 的 默认 状态 是 阻塞 的 。 这 就 意味 着 当 发 出 一 个 不 能 立即 完成 的 套 接 字 调用 时 ， 其 进 
程 将 被 投入 睡眠 ， 等 待 相应 操作 完成 。 可 能 阻塞 的 套 接 字 调用 可 分 为 以 下 四 类 。 

(1) 输入 操作 ， 包 括 reada、readv、recv、recvfrom 和 recvmsg 共 5 个 函数 。 如 果 某 个 进程 
对 一 个 阻塞 的 TCP 套 接 字 CRUE) 调用 这 些 输入 函数 之 一 ， 而 且 该 套 接 字 的 接收 缓冲 区 中 
没有 数据 可 读 ， 该 进程 将 被 投入 睡眠 ， 直 到 有 一 些 数据 到 达 。 既 然 TCP 是 字 节 流 协 议 ， 该 进程 
的 唤醒 就 是 只 要 有 一 些 数据 到 达 ， 这 些 数据 既 可 能 是 单个 字 节 ， 也 可 以 是 一 个 完整 的 TCP 分 节 
中 的 数据 .如 果 想 等 到 某 个 固定 数目 的 数据 可 读 为 止 , 那么 可 以 调用 我 们 的 readn 函 数 (图 3-15)， 
或 者 指定 MSG_WAITALL 标 志 ( 图 14-6)。 

既然 UDP 是 数据 报 协议 ， 如 果 一 个 阻塞 的 UDP 套 接 字 的 接收 缓冲 区 为 室 ， 对 它 调用 输入 函 
数 的 进程 将 被 投入 睡眠 ， 直 到 有 UDP 数据 报到 达 。 

对 于 非 阻塞 的 套 接 字 ， 如 果 输 入 操作 不 能 被 满足 《对 于 TCP 套 接 字 即 至 少 有 一 个 字 节 的 数 
据 可 读 ， 对 于 UDP 套 接 字 即 有 一 个 完整 的 数据 报 可 读 )， 相 应 调用 将 立即 返回 一 个 EwoULDBLOCK 
错误 。 

(2) 输出 操作 ， 包 括 write、writev、send、sendto 和 sendmsg 共 5 个 函数 。 对 于 一 个 TCP 
套 接 字 我 们 已 在 2.11 节 说 过 ， 内 核 将 从 应 用 进程 的 缓冲 区 到 该 套 接 字 的 发 送 缓冲 区 复制 数据 。 
对 于 阻塞 的 套 接 字 ， 如 果 其 发 送 缓冲 区 中 没有 空间 ， 进 程 将 被 投入 睡眠 ， 直 到 有 空间 为 止 。 

对 于 一 个 非 阻 塞 的 TCP 套 接 字 ， 如 果 其 发 送 缓冲 区 中 根本 没有 空间 ， 输 出 函数 调用 将 立即 
返回 一 个 gwoULDBLOCK 错 误 。 如 果 其 发 送 缓冲 区 中 有 一 些 空间 ， 返 回 值 将 是 内 核能 够 复制 到 该 
缓冲 区 中 的 字 节 数 。 这 个 字 节 数 也 称 为 不 足 计 数 Cshort count). 

我 们 还 在 2.11 节 说 过 ，UDP 套 接 字 不 存在 真正 的 发 送 缓冲 区 。 内 核 只 是 复制 应 用 进程 数据 
并 把 它 沿 协 议 栈 向 下 传送 ， 渐 次 冠 以 UDP 首 部 和 IP 首 部 。 因 此 对 一 个 阻塞 的 UDP 套 接 字 (默认 
设置 ), 输出 函数 调用 将 不 会 因 与 TCP 套 接 字 一 样 的 原因 而 阻 寨 , 不 过 有 可 能 会 因 其 他 的 原因 而 
BASE. 

(3) 接受 外 来 连接 ， 即 accept 函 数 。 如 果 对 一 个 阻塞 的 套 接 字 调 用 accept 函 数 ， 并 且 尚 无 
新 的 连接 到 达 ， 调 用 进程 将 被 投入 睡眠 。 

如 果 对 一 个 非 阻塞 的 套 接 字 调 用 accept 函 数 , 并 且 尚 无 新 的 连接 到 达 ，accept 调 用 将 立即 
返回 一 个 EWwoULDBLOCK 错 误 。 

(4) 发 起 外 出 连接 ， 即 用 于 TCP 的 connect 函 数 。( 回 顾 一 下 ， 我 们 知道 connect 同 样 可 用 于 
UDP, 不 过 它 不 能 使 一 个 “真正 ”的 连接 建立 起 来 , 它 只 是 使 内 核 保存 对 端的 IP 地 址 和 端口 号 。) 
我 们 已 在 2.6 节 展示 过 ，TCP 连 接 的 建立 涉及 一 个 三 路 握手 过 程 ， 而 且 connect 函 数 一 直 要 等 到 
客户 收 到 对 于 自己 的 SYN 的 ACK 为 止 才 返回 。 这 意味 着 TCP 的 每 个 connect 总 会 阻塞 其 调用 进 
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程 至 少 一 个 到 服务 器 的 RTT 时 间 。 

如 果 对 一 个 非 阻塞 的 TCP 套 接 字 调 用 connect， 并 且 连 接 不 能 立即 建立 ， 那 么 连接 的 建立 
能 照样 发 起 〈 辟 如 送出 TCP 三 路 握手 的 第 一 个 分 组 )， 不 过 会 返回 一 个 EINPROGRESS 错 误 。 注 意 
这 个 错误 不 同 于 上 述 三 个 情形 中 返回 的 错误 。 另 请 注意 有 些 连 接 可 以 立即 建立 ， 通 常 发 生 在 服 
务 器 和 客户 处 于 同一 个 主机 的 情况 下 。 因 此 即使 对 于 一 个 非 阻塞 的 connect， 我 们 也 得 预备 


. connect 成 功 返回 的 情况 发 生 。 我 们 将 在 16.3 节 展示 一 个 非 阻塞 connect 的 例子 。 


按照 传统 ， 对 于 不 能 被 满足 的 非 阻塞 式 IO 操 作 ，System V 会 返回 EAGAIN 错 误 ， 而 源 自 
Berkeley 的 实现 则 返回 EWOULDBLOCK 错 误 . 顾及 历史 原因 ，POSIX 规 范 声称 这 种 情况 下 这 两 
个 错误 码 都 可 以 返回 。 幸 运 的 是 ， 大 多 数 当前 的 系统 把 这 两 个 错误 码 定 义 成 相同 的 值 (检查 
一 下 你 自己 的 系统 中 的 <sys/errno.h> 头 文件 )， 因 此 具体 使 用 哪 一 个 并 无 多 大 关系 。 我 们 
在 本 书 中 使 用 EWOULDBLOCK。 


6.2 节 汇总 了 LO 的 各 种 可 用 模型 ， 并 比较 了 非 阻塞 式 WO 和 其 他 模型 。 在 本 章 中 ， 我 们 将 提 
供 上 述 所 有 四 类 操作 的 非 阻塞 式 UO 例 子 ， 并 开发 一 个 类 似 Web 客 户 程序 的 新 型 客户 程序 ， 它 使 
用 非 阻 塞 connect 同 时 发 起 多 个 TCP 连 接 。 
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我 们 再 次 回 到 在 5.5 节 和 6.4 节 讨论 过 的 str_cli 函 数 。6.4 节 讲 过 的 使 用 了 select 的 版 本 仍 
使 用 阻塞 式 WO。 举 例 来 说 ， 如 果 在 标准 输入 有 一 行文 本 可 读 ， 我 们 就 调用 read 读 入 它 ， 再 调用 
writen 把 它 发 送 给 服务 器 。 然 而 如 果 套 接 字 发 送 缓冲 区 已 满 ，writen 调 用 将 会 阻塞 。 在 进程 阻 
塞 于 writen 调 用 期 间 ， 可 能 有 来 自 套 接 字 接收 缓冲 区 的 数据 可 供 读 取 。 类 似 的 ， 如 果 从 套 接 字 
中 有 一 行 输入 文本 可 读 ， 那 么 一 旦 标准 输出 比 网 络 还 要 慢 ， 进 程 照样 可 能 阻塞 于 后 续 的 write 
调用 。 本 节 的 目标 是 开发 这 个 函数 的 一 个 使 用 非 阻塞 式 VO 的 版 本 。 这 样 可 以 防止 进程 在 可 做 任 
何 有 效 工 作 期 间 发 生 阻塞 。 

不 幸 的 是 , 非 阻塞 式 VO 的 加 入 让 本 函数 的 缓冲 区 管理 显著 地 复杂 化 了 ， 因 此 我 们 将 分 片 介 
绍 这 个 函数 。 我 们 已 在 第 6 章 和 第 14 章 中 讨论 过 在 套 接 字 上 使 用 标准 IO 的 潜在 问题 和 困难 ， 它 
们 在 非 阻塞 式 1O 操 作 中 显得 尤为 突出 。 本 例子 中 继续 避免 使 用 标准 IO。。 

我 们 维护 着 两 个 缓冲 区 : to 容纳 从 标准 输入 到 服务 器 去 的 数据 ，fr 容 纳 自 服务 器 到 标准 输 
出 来 的 数据 。 图 16-1 展 示 了 to 缓冲 区 的 组 织 和 指向 该 缓冲 区 中 的 指针 。 

标准 输入 


| toiptr &to[MAXLINE] 





tooptr i 


ERF 
图 16-1 容纳 从 标准 输入 到 套 接 字 的 数据 的 缓冲 区 


其 中 toiptr 指 针 指 向 从 标准 输入 读 入 的 数据 可 以 存放 的 下 一 个 字 节 。tooptr 指 向 下 一 个 必 
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须 写 到 套 接 字 的 字 节 。 有 (toiptr -tooptr) 个 字 节 需 写 到 套 接 字 。 可 从 标准 输入 读 入 的 字 节 
BE (gto [MAXLINE] -toiptr)。 一 旦 tooptr 移 动 到 toiptr， 这 两 个 指针 就 一 起 恢复 到 缓冲 
区 开始 处 。 
图 16-2 展 示 了 fr 缓冲 区 相应 的 组 织 。 
标准 输入 
| friptr &fr[MAXLINE] 
i | | 
t 1 


froptr 
标准 输出 
图 16-2 ”容纳 从 套 接 字 到 标准 输出 的 数据 的 缓冲 区 
图 16-3 给 出 了 本 函数 的 第 一 部 分 。 





nonblock/strclinonb.c 
1 #include "unp.h" 
2 void 
3 str cli(FILE *fp, int sockfd) 
4t 
5 int maxfdpl, val, stdineof; 
6 ssize t n, nwritten; 
7 fd set rset, wset; 
8 char to[MAXLINE], fr[MAXLINE]; 
9 char *toiptr, *tooptr, *friptr, *froptr; 
10 val - Fcntl(sockfd, F GETFL, 0); 
11 Fcntl(sockfd, F SETFL, val | O NONBLOCK); 
12 val = Fcntl(STDIN FILENO, F_GETFL, 0); 
13 Fcntl(STDIN FILENO, F SETFL, val | O NONBLOCK); 
14 val = Fcntl(STDOUT FILENO, F GETFL, 0); 
15 Fcntl(STDOUT FILENO, F SETFL, val | O NONBLOCK); 
16 toiptr - tooptr - to; /* initialize buffer pointers */ 
17 friptr - froptr - fr; 
18 stdineof - 0; 
19 maxfdpl = max(max(STDIN FILENO, STDOUT FILENO), sockfd) + 1; 
20 for (: : ) ( 
21 FD ZERO(&rset); 
22 FD. ZERO (&wset ) ; 
23 if (stdineof -- 0 && toiptr « &to[MAXLINE]) 
24 FD SET(STDIN FILENO, &rset); /* read from stdin */ 
25 if (friptr « &fr[MAXLINE]) 
26 FD SET(sockfd, &rset); /* read from socket */ 
27 if (tooptr !- toiptr) 
28 FD SET(sockfd, &wset); /* data to write to socket */ 
29 if (froptr !- friptr) 
30 FD SET(STDOUT FILENO, &wset); /* data to write to stdout */ 
31 Select(maxfdpi, &rset, &wset, NULL, NULL); 





nonblock/strclinonb.c A 


图 16-3 ”str_cli 函 数 第 一 部 分 : 初始 化 并 调用 select 438 
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把 描述 符 设 置 为 非 阻塞 
10-15 使 用 fcntl 把 所 用 3 个 描述 符 都 设置 为 非 阻 寨 ， 包 括 连 接 到 服务 器 的 套 接 字 、 标 准 输入 
和 标准 输出 。 
初始 化 缓冲 区 指针 
16-19 初始 化 指向 两 个 缓冲 区 的 指针 ， 并 把 最 大 的 描述 符号 加 1， 以 用 作 select 的 第 一 个 参 
数 。 
主 循环 : 准备 调用 select 
20 “和 本 函数 在 图 6-13 中 给 出 的 版 本 一 样 ， 这 个 版 本 的 主 循环 也 是 一 个 select 调 用 后 跟 对 
所 关注 各 个 条 件 所 进行 的 单独 测试 。 
指定 所 关注 的 描述 符 
21-30 ”两 个 描述 符 集 都 先 清 零 再 打开 最 多 2 位 。 如 果 在 标准 输入 上 尚未 读 到 EOF， 而 且 在 to 
缓冲 区 中 有 至 少 一 个 字 节 的 可 用 空间 ， 那 就 打开 读 描述 符 集中 对 应 标准 输入 的 位 。 如 
果 在 fr 缓冲 区 中 有 至 少 一 个 字 节 的 可 用 空间 ， 那 就 打开 读 描述 符 集 中 对 应 套 接 字 的 
位 。 如 果 在 ko 缓冲 区 中 有 要 写 到 套 接 字 的 数据 ， 那 就 打开 写 描述 符 集中 对 应 套 接 字 的 
位 。 最 后 ， 如 果 在 fr 缓冲 区 中 有 要 写 到 标准 输出 的 数据 ， 那 就 打开 写 描述 符 集中 对 应 
标准 输出 的 位 。 
调用 select 
31 调用 select， 等 待 4 个 可 能 条 件 中 任何 一 个 变 为 真 。 我 们 没有 为 本 select 调 用 设置 超 
时 。 
str_cli 函 数 的 下 一 部 分 在 图 16-4 中 给 出 。 本 部 分 代码 包含 select 返 回 后 执行 的 4 个 测试 中 
的 前 2 个 。 
从 标准 输入 reada 
32-33 ”如 果 标 准 输入 可 读 ， 那 就 调用 read。 指 定 的 第 三 个 参数 是 to 缓冲 区 中 的 可 用 空间 
量 。 
处 理 非 阻塞 错误 
34-35 ”如 果 发 生 一 个 EwouULDBLOCK 错 误 , 我 们 就 忽略 它 。 通 常情 况 下 这 种 条 件 “ 不 应 该 发 生 ” 
因为 这 种 条 件 意味 着 ，select 告 知 我 们 相应 描述 符 可 读 ， 然 而 reaG 该 描述 符 却 返回 
EWOULDBLOCK 错 误 ， 不 过 我 们 无 论 如 何 还 是 处 理 这 种 条 件 。 
read 返 回 EOF 
36-40 如果 read 返 回 0， 那 么 标准 输入 处 理 就 此 结束 ， 我 们 还 设置 staineof 标 志 。 如 果 在 to 
缓冲 区 中 不 再 有 数据 要 发 送 ( 即 tooptr 等 于 toiptr)， 那 就 调用 shutdown 发 送 FIN 到 
服务 器 。 如 果 在 to 缓冲 区 中 仍 有 数据 要 发 送 ，FIN 的 发 送 就 得 推迟 到 缓冲 区 中 数据 已 
写 到 套 接 字 之 后 。 
我 们 输出 一 行文 本 到 标准 错误 输出 以 表示 这 个 EOF， 同 时 输出 当前 时 间 。 本 输出 信息 的 
用 途 会 在 讲解 完 本 函数 之 后 展示 。 类 似 的 fprintf 在 本 函数 中 还 多 处 出 现 。 
read 返 回 数据 
41-45 ” 当 read 返 回 数据 时 ， 我 们 相应 地 增加 toipcr。 我 们 还 打开 写 描述 符 集 中 与 套 接 字 对 应 
的 位 ， 使 得 以 后 在 本 循环 内 对 该 位 的 测试 为 真 ， 从 而 导致 调用 write 写 到 套 接 字 。 
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nonblock/strclinonb.c 
32 if (FD ISSET(STDIN FILENO, &rset)) { 
33 if ( (n = read(STDIN FILENO, toiptr, &to[MAXLINE] - toiptr)) < 0){ 
34 if (errno !- EWOULDBLOCK) 
35 err sys("read error on stdin"); 
36 ) else if (n == 0) ( 
37 fprintf(stderr, "ts: EOF on stdin\n", gf time()); 
38 stdineof = 1; /* all done with stdin */ 
39 if (tooptr == toiptr) 
40 Shutdown (sockfd, SHUT WR); /* send FIN */ 
41 } else { 
42 fprintf(stderr, "$s: read %d bytes from stdin\n", gf time(), 
43 n): 
44 toiptr s- n; /* # just read */ 
45 FD SET(sockfd, &wset); /* try and write to socket below */ 
46 ) 
47 } 
48 if (FD_ISSET(sockfd, &rset)) { 
49 if ( (n = read(sockfd, friptr, &fr[MAXLINE] - friptr)) < 0) { 
50 if (errno !- EWOULDBLOCK) 
51 err sys("read error on socket"); 
52 ) else if (n -- 0) ( 
53 fprintf(stderr, "ts: EOF on socket\n", gf_time()); 
54 if (stdinecf) 
55 return; /* normal termination */ 
56 else 
57 err quití("str cli: server terminated prematurely"); 
58 } else { 
59 fprintf(stderr, "$s: read %d bytes from socket\n", 
60 gf_time(), n); 
61 friptr += n; /* # just read */ 
62 FD_SET(STDOUT_FILENO, &wset); /* try and write below */ 
63 } 
64 } 
nonblock/strclinonb.c 
图 16-4 str cli 28 — 84): MRE A ES EA 
这 是 编写 代码 时 需要 做 出 的 艰难 抉择 之 一 。 这 里 有 若干 个 手段 可 供 选择 。 我 们 可 以 什么 
都 不 做 , 不 用 在 写 集 合 中 设置 位 , 这 种 情况 下 select 将 在 下 次 被 调用 时 测试 套 接 字 的 可 写 性 ， 
然而 这 个 无 为 手段 要 求 在 已 知 有 数据 要 写 到 套 接 字 的 情况 下 ， 再 次 进入 另 一 轮 循环 以 调用 
select。 另 一 个 手段 是 将 用 于 写 到 套 接 字 的 代码 复制 至 此 。 然 而 这 个 手段 不 仅 看 似 浪费 ， 而 
且 是 一 个 潜在 的 犯错 根源 ( 万 一 被 复制 的 代码 中 存在 某 个 缺陷 ， 而 我 们 只 在 其 中 某 个 位 置 修 
复 了 该 缺陷 ， 却 忘 了 另 一 个 位 置 )， 再 一 个 手段 是 创建 一 个 写 到 套 接 字 的 函数 ， 并 以 调用 该 函 
数 取 代 代 码 复制 .然而 这 个 手段 要 求 该 函数 共享 str_cli 的 3 个 局 部 变量 ， 有 可 能 使 得 这 些 变 
量 成 为 全 局 变量 。 在 这 里 所 作出 的 选择 是 作者 自 认 为 最 好 的 。 
从 套 接 字 reaa 
48-64 ”这 段 代码 类 似 刚 才 讲 解 的 处 理 标准 输入 可 读 条 件 的 if 语 句 。 如 果 read 返 回 


EWOULDBLOCK 错 误 ， 那 么 不 做 任何 处 理 。 如 果 遇 到 来 自 服务 器 的 EOF， 那 么 若 我 们 已 
经 在 标准 输入 上 遇 到 EOF 则 没有 问题 ， 否 则 来 自 服务 器 的 EOF 并 非 预期 。 如 果 read 返 
回 一 些 数据 , 我 们 就 相应 地 增加 friptr, 并 把 写 描述 符 集中 与 标准 输出 对 应 的 位 打开 ， 
以 尝试 在 本 函数 第 三 部 分 中 将 这 些 数据 写 出 到 标准 输出 。 
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图 16-5 给 出 了 本 函数 的 最 后 一 部 分 。 





一 nonblock/strclinonb.c 
65 if (FD ISSET(STDOUT FILENO, &wset) && ( (n = friptr - froptr) > 0)) ( 
66 if ( (nwritten = write(STDOUT FILENO, froptr, n)) < 0) { 

67 if (errno !- EWOULDBLOCK) 
68 err sys("write error to stdout"); 
69 " } else ( 
70 fprintf(stderr, “%s: wrote $d bytes to stdout\n", 
71 gf_time(), nwritten); 
72 froptr += nwritten; /* # just written */ 
73 if (froptr == friptr) 
74 froptr = friptr = fr; /* back to beginning of buffer */ 
75 ) 
76 ) 
77 if (FD_ISSET(sockfd, &wset) && ( (n = toiptr - tooptr) > 0)) { 
78 if ( (mwritten = write(sockfd, tooptr, n)) < 0) { 
79 if (errno != EWOULDBLOCK) 
80 err_sys("write error to socket"); 
81 } else { 
82 fprintf(stderr, "ts: wrote $d bytes to socket\n", 
83 gf time(), nwritten); 
B4 tooptr += nwritten; /* 8 just written */ 
85 if (tooptr -- toiptr) ( 
86 toiptr - tooptr - to; /* back to beginning of buffer */ 
87 if (stdineof) 
88 Shutdown(sockfd, SHUT. WR); /* send FIN */ 
89 ) 
90 } 
91 } 
92 } 
93 } 
nonblock/strclinonb.c 


图 16-5 str_cli 函 数 第 三 部 分 : 写 到 标准 输出 或 套 接 字 


write 到 标准 输出 

65-68 ”如 果 标 准 输出 可 写 而 且 要 写 的 字 节 数 大 于 0， 那 就 调用 write。 如 果 返 回 EWOULDBLOCK 
错误 ， 那 么 不 做 任何 处 理 。 注 意 这 种 条 件 完全 可 能 发 生 ， 因 为 本 函数 第 二 部 分 末尾 的 
代码 在 不 清楚 write 是 否 会 成 功 的 前 提 下 就 打开 了 写 描 述 符 集中 与 标准 输出 对 应 的 
位 。 

write 成 功 

69-75 如果 write 成 功 ，froptzr 就 增 以 写 出 的 字 节 数 。 如 果 输 出 指针 Cfroptr) 追 上 输入 指 
fF (friptr)， 这 两 个 指针 就 同时 恢复 为 指向 缓冲 区 开始 处 。 

write 到 套 接 字 

77~91 ”这 段 代码 类 似 刚才 讲解 的 处 理 标 准 输 出 可 写 条 件 的 if 语 句 。 唯 一 的 差别 是 当 输 出 指针 
追 上 输入 指针 时 ， 不 仅 这 两 个 指针 同时 恢复 到 缓冲 区 开始 处 ， 而 且 如 果 已 经 在 标准 输 
入 上 遇 到 EOF 就 要 发 送 FIN 到 服务 器 。 

我 们 接着 查看 本 函数 的 操作 以 及 非 阻 塞 式 VO 间 的 迭 合 。 图 16-6 给 出 了 本 函数 调用 的 


gf time. 
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lib/gf time.c 
1 #include "unp.h" . 
2 #include «time.h» 
3 char * 
4 gf time(void) 
5t 
6 struct timeval tv; 
7 static char str[30]; 
8 char *ptr; 
9 if (gettimeofday(&tv, NULL) < 0) 
10 err sys("gettimeofday error"); 
11 ptr - ctime(&tv.tv sec); 
12 strcpy (str, &ptrí(11]); 
13 /* Fri Sep 13 00:00:00 1986\n\0 */ 
14 /* 0123456789012345678901234 5 */ 
15 snprintf(str « 8, sizeof(str) - 8, ".$061d", tv.tv usec); 
16 return(str); 
17 ) 
lib/gf time.c 


图 16-6 gf_time 函 数 : 返回 指向 时 间 字 符 串 的 指针 
gf_time 函 数 返回 一 个 含有 当前 时 间 的 字符 串 ， 包 括 微 秒 ， 格 式 如 下 。 


12:34:56.123456 
这 里 特意 采用 与 tcpdump 的 时 间 截 输出 一 致 的 格式 。 还 要 注意 的 是 ，str_cli 函 数 中 的 所 有 
fprintf 调 用 都 写 到 标准 错误 输出 ， 使 得 我 们 能 够 区 分 标准 输出 内容 为 由 服务 器 回 射 的 文本 
行 ) 和 诊断 输出 。 这 样 一 来 我 们 可 以 同时 运行 我 们 的 TCP 回 射 客户 程序 和 tcpdump 程 序 ， 并 把 
得 到 的 诊断 输出 和 tcpaump 输 出 放 在 一 起 按时 间 统 一 排序 。 我 们 可 以 从 中 查看 本 客户 程序 中 到 
底 发 生 了 什么 ， 并 和 相应 的 TCP 行 为 相关 联 。 

举例 来 说 ， 我 们 首先 在 主机 solaris 上 运行 tcpdaump， 指 定 捕获 只 去 往 或 来 自 端口 7〈 回 射 
服务 器 ) 的 TCP 分 节 ， 程 序 输出 存 到 在 名 为 ccpd 的 文件 中 。 

solaris % tcpdump -w tcpd tcp and port 7 
然后 在 同一 个 主机 上 运行 我 们 的 TCP 客 户 程序 ， 指 定 连接 到 主机 1inux 上 的 标准 echo 服 务 器 。 

solaris $ tcpcli02 192.168.1.10 < 2000.1ines > out 2» diag 

标准 输入 是 文件 2000.1ines， 曾 用 于 讨论 图 6-13。 标 准 输出 发 送 到 文件 cut， 标准 错误 输 

出 发 送 到 文件 aiag。 程 序 执行 完毕 后 我 们 运行 以 下 命令 

solaris $ diff 2000.1ines out 
以 验证 回 射 文本 行 等同 于 输入 文本 行 。 最 后 我 们 用 中 断 键 终止 Lcpdump, 输出 tcpGump 记 录 , 并 
整合 客户 程序 的 诊断 输出 一 起 排序 。 图 16-7 给 出 了 这 个 结果 的 第 一 部 分 。 

我 们 对 那些 包含 SYN 的 过 长 的 行进 行 了 折 行 处 理 ， 并 删 掉 了 Solaris 分 节 的 不 分 片 (DF) 记 
号 ， 该 记号 表示 设置 了 不 分 片 位 (用 于 路 径 MTU 发 现 )。 

根据 这 个 输出 ， 我 们 可 以 把 发 生 的 事情 以 时 间 线 图 描绘 出 来 。 图 16-8 展 示 了 这 个 结果 ， 其 
中 时 间 按 向 下 方向 递增 。 
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solaris % tcpdump -r tcpd -N | sort diag - 
solaris.33621 > linux.echo: S 1802738644:1802738644(0) 
win 8760 «mss 1460» 
linux.echo » solaris.33621: S 3212986316:3212986316(0) 
ack 1802738645 win 8760 «mss 1460» 
. ack 1 win 8760 


10: 


我 们 没有 在 图 中 绘 出 ACK 分 节 。 还 要 意识 到 的 是 ， 当 程序 输出 “wrote N bytes to stdout 
(已 将 N 字 节 写 到 标准 输出 )” 时 ，write 调 用 已 经 返回 ， 并 可 能 导 臻 TCP 发送 了 一 个 或 多 个 


18:34.486392 


:18: 


:18: 


:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 


4 


:18: 
:18: 
:18: 
218: 
218: 
218: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 
:18: 


34. 


34. 


34. 


34. 
34. 


34 


34 


34 


34. 
34. 
34. 
34. 
34. 


分 节 的 数据 。 


我 们 从 这 幅 时 间 线 图 可 以 看 出 客户 /服务 器 数据 交换 的 动态 性 。 使 用 非 阻塞 式 IO 使 程序 能 
发 挥动 态 性 的 优势 ， 只 要 UO 操 作 有 可 能 发 生 ， 就 执行 合适 的 读 操 作 或 写 操作 。 通 过 使 用 select 


488278 


488490 


491482: 


518663 


519016: 
.528529 

34. 
34. 
34. 
34. 
34. 
34. 
34, 
34. 
34. 
:34. 
34. 
34, 
34. 
34. 
34, 
34. 
.626339 
34. 
.628396 

643524: 
667305: 


528785 
528900 
528958 
536193 
536697 


544636: 
568505: 


580373 
582244 


593354: 


617272 
617610 
617908 


618062: 


623310 
626129 


626611 


670324 
672221 


691039: 


solaris.33621 » linux.echo: 


read 4096 bytes from stdin 
solaris.33621 > linux.echo: 
wrote 4096 bytes to socket 
linux.echo > solaris.33621: 
solaris.33621 > linux.echo: 
solaris.33621 > linux.echo: 
solaris.33621 > linux.echo: 
linux.echo > solaris.33621: 
linux.echo > solaris.33621: 
read 4096 bytes from stdin 


read 3508 bytes from socket 


solaris.33621 > linux.echo: 
linux.echo > solaris.33621: 
wrote 3508 bytes to stdout 
solaris.33621 > linux.echo: 
solaris.33621 > linux.echo: 
solaris.33621 > linux.echo: 
wrote 4096 bytes to socket 
linux.echo > solaris.33621: 
linux.echo > solaris.33621: 
solaris.33621 > linux.echo: 
linux.echo > solaris.33621: 
linux.echo > solaris.33621: 
read 4096 bytes from stdin 


read 2636 bytes from socket 


solaris.33621 > linux.echo: 


wrote 2636 bytes to stdout 


P 


P 


1:1461(1460) ack 1 win 8760 


1:1461(1460) ack 1461 win 8760 


. 1461:2921(1460) ack 1461 win 8760 


P 


2921:4097(1176) ack 1461 win 8760 


. ack 1461 win 8760 
+ 1461:2921 (1460) ack 4097 win 8760 


P 


2921:3509(588) ack 4097 win 8760 


. ack 3509 win 8760 


P 


P 
P 
P 


3509:4097(588) ack 4097 win 8760 


4097:5557(1460) ack 4097 win 8760 
5557:7017(1460) ack 4097 win 8760 
7017:8193(1176) ack 4097 win 8760 


. ack 8193 win 8760 
. 4097:5557(1460) ack 8193 win 8760 


ack 5557 win 8760 
5557:6145(588) ack 8193 win 8760 


. 6145:7605(1460) ack 8193 win 8760 


. ack 7605 win 8760 
linux.echo » solaris.33621: P 7605:8193(588) ack 8193 win 8760 


16-7 ”排序 后 的 Lcpdump 输 出 和 诊断 输出 


函数 ， 我 们 让 内 核 可 以 告诉 我 们 何 时 某 个 IO 操作 可 以 发 生 。 


我 们 可 以 像 在 6.7 节 展示 的 那样 使 用 相同 的 2000 行 文件 和 相同 的 服务 器 主机 ( 它 与 客户 主机 
间 的 RTT 为 175 ms ) 测 算 执 行 非 阻塞 版 客户 程序 所 花 的 时 间 。? 执 行 非 阻塞 版 本 的 时 钟 时 间 (clock 
time) 为 6.9s， 比 照 6.7 节 中 的 版 本 执行 时 钟 时 间 为 12.3s。 因 此 就 本 例子 而 言 ， 非 阻塞 式 IO 整 体 


上 减少 了 往 服务 器 发 送 一 个 文件 所 花 的 时 间 。 


(D Stevens 先 生 显然 在 6.7 节 遗漏 了 所 述 内 容 。 本 书 第 2 版 6.7 节 和 第 3 版 6.7 节 的 内 容 是 一 致 的 。 一 一 译 者 注 
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客户 to 套 接 字 发 套 接 字 接 客户 fr 
缓冲 区 送 缓冲 区 服务 器 收 缓冲 区 缓冲 区 
TCP. DL. TES 
tinna 2 35 
GE 4096 
( 写 ) 1460 
1460 
1460 
1176 
dii. ON 
3508 
588 ( 读 ) 
3508 "m 
A ( 写 ) 标准 输出 
1176 
1460 
588 
1460 
标准 输入 did 
588 
2636 标准 输出 








图 16-8” 非 阻 寒 式 WO 例子 的 时 间 线 


16.2.1 str cli 的 较 简 单 版 本 


刚才 给 出 的 str_cli 函 数 非 阻塞 版 本 比较 复杂 一 一 约 有 135 行 代码 ， 与 之 相 比 ， 图 6-13 中 使 
用 select 和 阻塞 式 UO 的 版 本 有 着 40 行 代码 , 而 最 初 的 停 -等 版 本 (图 5-5) 则 只 有 区 区 20 行 代码 。 
我 们 知道 代码 长 度 从 20 行 倍增 到 40 行 的 努力 是 值得 的 ， 因 为 在 批量 模式 下 执行 速度 几乎 提高 了 
30 倍 ， 而 且 在 阻塞 的 描述 符 上 使 用 select 并 不 太 复 杂 。 然 而 考虑 到 结果 代码 的 复杂 性 ， 把 应 用 
程序 编写 成 使 用 非 阻 塞 式 MO 的 努力 是 否 照样 值得 呢 ? 回答 是 否定 的 。 每 当 我 们 发 现 需要 使 用 非 
阻塞 式 WO 时 , 更 简单 的 办 法 通常 是 把 应 用 程序 任务 划分 到 多 个 进程 (使 用 fork) 或 多 个 线程 (第 
263). 

图 16-10 是 str_c1li 函 数 的 另 一 个 版 本 ， 该 函数 使 用 fork 把 当前 进程 划分 成 两 个 进程 。 

这 个 函数 一 开始 就 调用 fork 把 当前 进程 划分 成 一 个 父 进程 和 一 个 子 进程 。 子 进程 把 来 自 服 
务 器 的 文本 行 复制 到 标准 输出 ， 父 进程 把 来 自 标准 输入 的 文本 行 复制 到 服务 器 ， 如 图 16-9 所 示 。 
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一 个 TCP 连 接 〈 全 双 工 ) 





标准 输出 


图 16-9 使 用 两 个 进程 的 stz_cli 函 数 


$$ non lock/strclifork.c 
1 #include “unp.h" 
2 void 
3 str_cli(FILE *fp, int sockfd) 
44 
5 pidt pid; 
6 char sendline(MAXLINE], recvline[MAXLINE]; 
7 if ( (pid = Fork()) == 0) ( /* child: server -» stdout */ 
8 while (Readline(sockfd, recvline, MAXLINE) > 0) 
9 Fputs(recvline, stdout); 
10 kill(getppid(), SIGTERM); /* in case parent still running */ 
11 exit (0); 
12 ) 
13 /* parent: stdin -» server */ 
14 while (Fgets(sendline, MAXLINE, fp) !- NULL) 
15 Writen(sockfd, sendline, strlen(sendline)); 
16 Shutdown(sockfd, SHUT WR); /* EOF on stdin, send FIN */ 
17 pause(); 
18 return; 
19 ) 

nonblock/strclifork.c 





图 16-10 使 用 fork 的 str_cli 函 数 


我 们 在 图 中 明确 地 指出 所 用 TCP 连 接 是 全 双 工 的 ,而且 父子 进程 共享 同一 个 套 接 字 : 父 进程 
往 该 套 接 字 中 写 ， 子 进程 从 该 套 接 字 中 读 。 尽 管 套 接 字 只 有 一 个 ， 其 接收 缓冲 区 和 发 送 缓冲 区 也 
分 别 只 有 一 个 , 然而 这 个 套 接 字 却 有 两 个 描述 符 在 引用 它 ; 一 个 在 父 进程 中 , 另 一 个 在 子 进程 中 。 

我 们 同样 需要 考虑 进程 终止 序列 。 正 常 的 终止 序列 从 在 标准 输入 上 过 到 EOF 之 时 开始 发 生 。 
父 进程 读 入 来 自 标准 输入 的 EOF 后 调用 shutdown 发 送 FIN。( 父 进程 不 能 调用 close, 见习 题 15.1。) 
但 当 这 发 生 之 后 ， 子 进程 需 继续 从 服务 器 到 标准 输出 执行 数据 复制 ， 直 到 在 套 接 字 上 读 到 EOF 。 

服务 器 进程 过 早 终止 也 有 可 能 发 生 (5.12 节 )。 要 是 发 生 这 种 情况 ， 子 进程 将 在 套 接 字 上 读 
到 EOF。 这 样 的 子 进程 必须 告知 父 进程 停止 从 标准 输入 到 套 接 字 复 制 数 据 ( 见 习题 16.2)。 在 图 
16-10 中 ， 子 进程 向 父 进 程 发 送 一 个 sSIGTERM 信 号 ， 以 防 父 进程 仍 在 运行 (见习 题 16.3)。 如 此 处 
理 的 另 一 个 手段 是 子 进程 无 为 地 终止 使 得 父 进程 (如果 仍 在 运行 的 话 ) 捕获 一 个 SIGCHLD 信 号 。 

父 进程 完成 数据 复制 后 调用 pause 让 自己 进入 睡眠 状态 ， 直 到 捕获 一 个 信号 〈 子 进程 来 的 
SIGTERM 信 号 )， 尽 管 它 不 主动 捕获 任何 信号 。SIGTERM 信 号 的 默认 行为 是 终止 进程 ， 这 对 于 
本 例子 是 合适 的 。 我 们 让 父 进程 等 待 子 进程 的 目的 在 于 精确 测量 调用 此 版 str_cli 函 数 的 TCP 
客户 程序 的 执行 时 钟 时 间 。 正 常情 况 下 子 进程 在 父 进程 之 后 结束 ， 然 而 我 们 用 于 测量 时 钟 时 间 
的 是 shell 内 部 命令 time， 它 要 求 父 进程 持续 到 测量 结束 时 刻 。 
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注意 该 版 本 相 比 本 节 前 面 给 出 的 非 阻 塞 版 本 体现 的 简单 性 。 非 阻塞 版 本 同时 管理 4 个 不 同 的 
LIO 流 , 而 且 由 于 这 4 个 流 都 是 非 阻塞 的 , 我 们 不 得 不 考虑 对 于 所 有 4 个 流 的 部 分 读 和 部 分 写 问题 。 
然而 在 fork 版 本 中 , 每 个 进程 只 处 理 2 个 IO 流 ， 从 一 个 复制 到 另 一 个 。 这 里 不 需要 非 阻塞 式 IO， 
因为 如 果 从 输入 流 没有 数据 可 读 ， 往 相应 的 输出 流 就 没有 数据 可 写 。 


16.2.2 str cli 执行 时 间 


我 们 已 经 给 出 str_cii 函 数 的 4 个 不 同 版 本 。 以 下 是 调用 这 些 版 本 以 及 一 个 使 用 线程 的 版 本 
(图 26-2) 的 TCP 客 户 程序 执行 时 钟 时 间 的 汇总 ， 测 量 环 境 是 从 一 个 Solaris 客 户主 机 向 RTT 为 175 
毫秒 的 一 个 服务 器 主机 复制 2000 行 文本 。 

e 354.0 秒 ， 停 等 版 本 (图 5-5)。 

e 12.3 秒 ，select 加 阻塞 式 IO 版 本 〈 图 6-13 )。 

e 6.9 秒 ， 非 阻塞 式 IO 版 本 〈 图 16-3 )。 

e 8.7 秒 ，fork 版 本 〈 图 16-10)。 

e 8.5 秒 ， 线 程 化 版 本 《图 26-2)。 

非 阻 塞 版 本 几乎 比 select 加 阻塞 式 MO 版 本 快 出 一 倍 。fork 版 本 比 非 阻 塞 版 本 稍 慢 ， 然 而 
考虑 到 非 阻 塞 版 本 代码 相 比 fork 版 本 代码 的 复杂 性 ， 我 们 推荐 简单 得 多 的 fork 版 本 。 


16.3 非 阻塞 connect 


当 在 一 个 非 阻 塞 的 TCP 套 接 字 上 调用 connect 时 ，connect 将 立即 返回 一 个 EINPROGRESS 
错误 ， 不 过 已 经 发 起 的 TCP 三 路 握手 继续 进行 。 我 们 接着 使 用 select 检 测 这 个 连接 或 成 功 或 失 
败 的 已 建立 条 件 。 非 阻塞 的 connect 有 三 个 用 途 。 

(1) 我 们 可 以 把 三 路 握手 又 加 在 其 他 处 理 上 。 完 成 一 个 connect 要 花 一 个 RTT 时 间 (2.575 5, 
而 RTT 波 动 范 围 很 大 ， 从 局 域 网 上 的 几 个 毫秒 到 几 百 个 毫秒 甚至 是 广域网 上 的 几 秒 。 这 段 时 间 
内 也 许 有 我 们 想 要 执行 的 其 他 处 理工 作 可 执行 。 

(2) 我 们 可 以 使 用 这 个 技术 同时 建立 多 个 连接 。 这 个 用 途 已 随 着 Web 浏 览 器 变 得 流行 起 来 ， 
我 们 将 在 16.5 节 给 出 这 样 的 一 个 例子 。 

(3) 既然 使 用 select 等 竺 连接 的 建立 ， 我 们 可 以 给 select 指 定 一 个 时 间 限 制 ， 使 得 我 们 能 
够 缩短 connect 的 超时 。 许多 实现 有 着 从 75 秒 钟 到 数 分 钟 的 connect 超 时 时 间 。 应 用 程序 有 时 想 
要 一 个 更 短 的 超时 时 间 ， 实现 方法 之 一 就 是 使 用 非 阻塞 connect。 我们 已 在 14.2 节 讨论 过 在 套 接 
字 操 作 上 设置 超时 时 间 的 其 他 方法 。 

非 阻塞 connnct 虽 然 听 似 简 单 ， 却 有 一 些 我 们 必须 处 理 的 细节 。 

e 尽管 套 接 字 是 非 阻塞 的 , 如 果 连 接 到 的 服务 器 在 同一 个 主机 上 , 那么 当 我 们 调用 connect 

时 ， 连 接 通常 立刻 建立 。 我 们 必须 处 理 这 种 情形 。 

e 源 自 Berkeley 的 实现 CRIPOSIXO 有 关于 select 和 非 阻 塞 connect 的 以 下 两 个 规则 : (1) 
当 连 接 成 功 建立 时 ， 描 述 符 变 为 可 写 〈TCPv2 第 $31 页 ); (2) 当 连 接 建 立 遇 到 错误 时 ， 
描述 符 变 为 既 可 读 又 可 写 〈TCPv2 第 530 页 )。 

关于 select 的 这 两 个 规则 出 自 6.3 节 中 关于 描述 符 就 绪 条 件 的 相关 规则 . 一 个 TCP 套 接 字 
变 为 可 写 的 条 件 是 : 其 发 送 缓冲 区 中 有 可 用 空间 ( 对 于 连接 建立 中 的 套 接 字 而 言 本 子 条 件 总 
为 真 ， 因 为 尚未 往 其 中 写 出 任何 数据 )， 并 且 该 套 接 字 已 建立 连接 ( 本 子 条 件 为 真 发 生 在 三 路 


握手 完成 之 后 )。 一 个 TCP 套 接 字 上 发 生 某 个 错误 时 ， 这 个 待 处 理 错误 总 是 导致 该 套 接 字 变 为 
既 可 读 又 可 写 。 
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在 下 面 的 例子 中 我 们 将 提 及 有 关 非 阻塞 connect 的 许多 移植 性 问题 。 
16.4” 非 阻塞 connect. 时 间 获 取 客 户 程 序 


图 16-11 给 出 的 connect_nonpb 函 数 执行 一 个 非 阻 塞 connect。 我 们 把 图 1-5$ 的 connect 调 用 
替换 成 : 


if (connect, nonb(sockfd, (SA*) &servaddr, sizeof(servaddr), 0) < 0) 
err sys("connect error"); 








它 的 前 3 个 参数 和 connect 的 一 样 ， 第 四 个 参数 是 等 待 连接 完成 的 秒 数 。 值 为 0 暗 指 不 给 
select 设 置 超时 ;， 因 此 内 核 将 使 用 通常 的 TCP 连 接 建立 超时 。 
设置 套 接 字 为 非 阻塞 
9-10 调用 fcnt1 把 套 接 字 设 置 为 非 阻塞 。 
11-14 发 起 非 阻塞 connect。 期 望 的 错误 是 BINPROGRESS， 表 示 连 接 建立 建立 已 经 启动 但 是 
”尚未 完成 (TCPv2 第 466 页 )。connect 返 回 的 任何 其 他 错误 返回 给 本 函数 的 调用 者 。 
在 其 他 处 理 上 迁 合 连接 建立 
15 人 至 此 我 们 可 以 在 等 待 连接 建立 完成 期 间 做 任何 我 们 想 做 的 事情 。 
检查 连接 是 否 立 即 建立 
16-17 如果 非 阻 塞 connect 返 回 0， 那 么 连接 已 经 建立 。 我 们 已 经 说 过 ， 当 服务 器 处 于 客户 所 
在 主机 时 这 种 情况 可 能 发 生 。 
调用 select 
18-24 ”调用 select 等 待 套 接 字 变 为 可 读 或 可 写 。 我 们 清 零 zset， 打 开 这 个 描述 符 集中 对 应 
sockfd 的 位 ， 然 后 将 rset 复制 到 wset。 复 制 描述 符 集 的 赋值 可 能 是 一 个 结构 赋值 ， 
因为 描述 符 集 通常 作为 结构 表示 。 我 们 还 初始 化 timeval 结 构 ， 然 后 调用 select。 如 
果 调 用 者 把 第 四 个 参数 指定 为 0 (表示 使 用 默认 超时 时 间 )， 那 么 我 们 必须 把 select 的 
最 后 一 个 参数 指定 为 一 个 空 指 针 ， 而 不 是 一 个 值 为 0 的 timeval 结 构 (后 者 意味 着 根本 
不 等 待 )。 
处 理 超时 
25-28 ”如 果 select 返 回 9， 那 么 超时 发 生 ， 我 们 于 是 返回 ETIMEOUT 错 误 给 调用 者 。 我 们 还 要 
关闭 套 接 字 ， 以 防止 已 经 启动 的 三 路 握手 继续 下 去 。 
检查 可 读 或 可 写 条 件 
29-34 ”如果 描 述 符 变 为 可 读 或 可 写 ， 我 们 就 调用 getsockopt 取 得 套 接 字 的 待 处 理 错误 〈 使 
用 So_ERROR 套 接 字 选 项 )。 如 果 连 接 成 功 建立 ， 该 值 将 为 0。 如 果 连 接 建立 发 生 错误 ， 
该 值 就 是 对 应 连接 错误 的 errno 值 ( 臂 如 ECONNREFUSED、ETIMEDOUT 等 )。 这 里 我 
们 会 遇 到 第 一 个 移植 性 问题 。 如 果 发 生 错 误 ， getsockopt Usi Él Berkeley ft) KWK 
我 们 的 变量 erzror 中 返回 待 处 理 错误 ，getsockopt 本 身 返 回 0; 然而 Solaris 却 让 
getsockopt 返 回 -1， 并 把 errno 变 量 置 为 待 处 理 错误 。 不 过 我 们 的 程序 能 够 同时 处 
理 这 两 种 情形 。 
关闭 非 阻塞 状态 并 返回 
36-42 恢复 套 接 字 的 文件 状态 标志 并 返回 。 如 果 自 getsockopt 返 回 的 error 变 量 为 非 0 值 ， 
我 们 就 把 该 值 存 入 errno， 函 数 本 身 返 回 -1。 
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— —— lib/connect nonb.c 





1 #include "unp.h" 


2 int 

3 connect nonb(int sockfd, const SA *saptr, socklen t salen, int nsec) 
4t 

5 int flags, n, error; 

6 Socklen t len; 

7 fd set rset, wset; 

8 struct timeval tval; 

9 flags = Fentl(sockfd, F GETFL, 0); 

10 Fcntl(sockfd, F SETFL, flags | O NONBLOCK); 

11 error - 0; 

12 if ( (n = connect (sockfd, saptr, salen)) < 0) 

13 if (errno !- EINPROGRESS) 

14 return(-1); 

15 /* Do whatever we want while the connect is taking place. */ 
16 if (n == 0) 

17 goto done; /* connect completed immediately */ 
18 FD ZERO(&rset); 

19 FD SET(sockfd, &rset); 

20 wset - rset; 

21 tval.tv sec - nsec; 

22 tval.tv usec - 0; 

23 if ( (n = Select(sockfd«l, &rset, &wset, NULL, 

24 nsec ? &tval : NULL)) -- 0) ( 

25 close (sockfd) ; /* timeout */ 

26 errno = ETIMEDOUT; 

27 return(-1); 

28 } 

29 if (FD ISSET(sockfd, &rset) || FD ISSET(sockfd, &wset)) { 
30 len - sizeof(error); 

31 if (getsockopt(sockfd, SOL SOCKET, SO ERROR, &error, &len) « 0) 
32 return(-1); /* Solaris pending error */ 

33 ) eise 

34 err quit("select error: sockfd not set"); 

35 done 

36 Fcntl(sockfd, F SETFL, flags);/* restore file status flags */ 
37 if (error) ( 

38 close(sockfd); /* just in case */ 

39 errno - error; 

40 return(-1); 

41 ) 

42 return(0); 

43 ) 





lib/connect nonb.c 


图 16-11 发 起 一 个 非 阻 塞 connect 


我 们 之 前 说 过 ， 套 接 字 的 各 种 实现 以 及 非 阻 塞 connect 会 带 来 移植 性 问题 。 首 先 ， 调 用 
select 之 前 有 可 能 连接 已 经 建立 并 有 来 自 对 端的 数据 到 达 。 这 种 情况 下 即使 套 接 字 上 不 发 生 错 
误 ， 套 接 字 也 是 既 可 读 又 可 写 ， 这 和 连接 建立 失败 情况 下 套 接 字 的 读 写 条 件 一 样 。 图 16-11 中 的 
代码 通过 调用 getsockopt 并 检查 套 接 字 上 是 否 存在 待 处 理 错误 来 处 理 这 种 情形 。 

其 次 ， 既 然 我 们 不 能 假设 套 接 字 的 可 写 〈 而 不 可 读 ) 条 件 是 select 返 回 套 接 字 操 作成 功 条 
件 的 唯一 方法 ， 下 一 个 移植 性 问题 就 是 怎样 判断 连接 建立 是 否 成 功 。 张 贴 到 Usenet 上 的 解决 办 
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法 各 式 各 样 。 这 些 方法 可 以 取代 图 16-11 中 的 get sockopt 调 用 。 

(1) 调用 getpeername 代 替 getsockopt。 如 果 getpeername 以 ENOTCONN 错 误 失 败 返 回 ， 那 
么 连接 建立 已 经 失败 ,我 们 必须 接着 以 SO_ERROR 调 用 get sockopt 取 得 套 接 字 上 待 处 理 的 错误 。 

(2) 以 值 为 0 的 长 度 参 数 调 用 read。 如 果 read 失 败 ， 那 么 connect 已 经 失败 ，read 返 回 的 
errno 给 出 了 连接 失败 的 原因 。 如 果 连 接 建立 成 功 ， 那 么 read 应 该 返回 0。 

(3) 再 调用 connect 一 次 。 它 应 该 失败 ， 如 果 错 误 是 EISCONN， 那 么 套 接 字 已 经 连接 ， 也 就 
是 说 第 一 次 连接 已 经 成 功 。 

不 幸 的 是 ， 非 阻塞 connect 是 网 络 编程 中 最 不 易 移 植 的 部 分 。 使 用 该 技术 必须 准备 应 付 移 
植 性 问题 ， 特 别 是 对 于 较 老 的 实现 。 避 免 移 植 性 问题 的 一 个 较 简 单 技术 是 为 每 个 连接 创建 一 个 
处 理 线程 (第 26 章 )。 


被 中 断 的 connect 


对 于 一 个 正常 的 阻塞 式 套 接 字 , 如 果 其 上 的 connect 调 用 在 TCP 三 路 握手 完成 前 被 中 断 ( 辟 
如 说 捕获 了 某 个 信号 )， 将 会 发 生 什 么 呢 ? 假设 被 中 断 的 connect 调 用 不 由 内 核 自 动 重启 ， 那 么 
它 将 返回 EINTR。 我 们 不 能 再 次 调用 connect 等 待 未 完成 的 连接 继续 完成 。 这 样 做 将 导致 返回 
EADDRINUSE 错 误 。 

这 种 情形 下 我 们 只 能 调用 select， 就 像 本 节 对 于 非 阻塞 connect 所 做 的 那样 。 连 接 建 立成 
功 时 select 返 回 套 接 字 可 写 条 件 ， 连 接 建 立 失败 时 select 返 回 套 接 字 既 可 读 又 可 写 条 件 。 
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非 阻塞 connect 的 现实 例子 出 自 Netscape 的 Web 客 户 程 序 (TCPv3 的 13.4 节 )。 客 户 先 建立 一 
个 与 某 个 Web 服 务 器 的 HTTP 连 接 ， 再 获取 一 个 主页 (homepage)。 该 主页 往往 含有 多 个 对 于 其 
他 网 页 (Web page) 的 引用 。 客 户 可 以 使 用 非 阻 塞 connect 同 时 获取 多 个 网 页 ， 以 此 取代 每 次 
只 获取 一 个 网 页 的 串 行 获取 手段 。 图 16-12 展 示 了 一 个 并 行 建立 多 个 连接 的 例子 。 最 左边 情形 表 
示 串 行 执 行 所 有 3 个 连接 。 假 设 第 一 个 连接 耗 用 10 个 时 间 单 位 ， 第 二 个 耗 用 15 个 ， 第 三 个 耗 用 4 
个 ， 总 计 29 个 时 间 单 位 。 

中 间 情 形 并 行 执 行 2 个 连接 。 在 时 刻 0 启动 前 2 个 连接 , 当 其 中 之 一 结束 时 , 启动 第 三 个 连接 。 
总 计 耗 时 差不多 减 半 ， 从 29 变 为 15， 不 过 必须 意识 到 这 是 就 理想 情况 而 言 。 如 果 并 行 执行 的 连 
接 共享 同一 个 低速 链 路 ( 辟 如 说 客户 主机 通过 一 个 拨号 调制 解 调 器 链 路 接 入 因特网 )， 那么 每 个 
连接 可 能 彼此 竞 用 有 限 的 资源 ， 使 得 每 个 连接 都 可 能 耗 用 更 长 的 时 间 。 举 例 来 说 ，10 个 时 间 单 
位 的 连接 可 能 变 为 1 5，15 个 时 间 单 位 的 可 能 变 为 20，4 个 时 间 单 位 的 可 能 变 为 6。 即 便 如 此 ， 总 
计 耗 时 将 是 21， 仍 然 短 于 串 行 执行 的 情形 。 

最 右边 情形 并 行 执行 所 有 3 个 连接 ,其 中 再 次 假设 这 3 个 连接 之 间 没 有 干扰 (理想 情况 )。 然 
而 就 我 们 选择 的 例子 时 间 而 言 ， 本 情形 的 总 计 耗 时 和 中 间 情 形 的 一 样 ， 都 是 15 个 时 间 单 位 。 

在 处 理 Web 客 户 时 ， 第 一 个 连接 独立 执行 ， 来 自 该 连接 的 数据 含有 多 个 引用 ， 随 后 用 于 访 
问 这 些 引 用 的 多 个 连接 则 并 行 执行 ， 如 图 16-13 所 示 。 

为 了 进一步 优化 连接 执行 序列 ， 客 户 可 以 在 第 一 个 连接 尚未 完成 前 就 开始 分 析 从 中 陆续 返 
回 的 数据 ， 以 便 尽早 得 悉 其 中 含有 的 引用 ， 并 尽快 启动 相应 的 额外 连接 。 

既然 准备 同时 处 理 多 个 非 阻 塞 connect， 我 们 就 不 能 使 用 图 16-11 中 的 connect_nonb 函 数 ， 
因为 它 直 到 连接 已 经 建立 才 返 回 。 我 们 必须 自行 管理 这 些 〈 可 能 尚未 成 功 建立 的 ) 连接 。 
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时 间 0 时 间 0 时 间 0 
4 
4 
10 10 10 
15 15 
10 10 10 
4 
14 
15 15 
15 
25 
4 
29 
3 个 连接 串 行 执行 3 个 连接 并 行 执行 ; 3 个 连接 并 行 执行 ; 
一 -次 最 多 2 个 连接 一 次 最 多 3 个 连接 


图 16-12 ”并 行 建立 多 个 连接 


时 间 0 __ 





a 


图 16-13 ”完成 第 一 个 连接 后 并 行 操作 多 个 连接 


我 们 的 程序 最 多 读 20 个 来 自 Web 服 务 器 的 文件 。 最 大 并 行 连接 数 、 服 务 器 的 主机 名 以 及 要 
从 服务 器 获取 的 每 个 文件 的 文件 名 都 会 作为 命令 行 参数 指定 ,执行 本 程序 的 一 个 典型 例子 如 下 。 


solaris $ web 3 www.foobar.com / imagel.gif  image2.gif \ 
image3.gif image4.gif  image5.gif \ 
image6.gif  image7.gif 
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本 命令 行 参数 指定 并 行 执行 最 多 3 个 连接 、 服 务 器 的 主机 名 、 主 页 的 文件 名 /是 服务 器 的 
根 网 页 ) 以 及 随后 读 入 的 7 个 文件 〈 本 例 中 都 是 GIF 图 像 )。 这 7 个 文件 通常 在 指定 主页 中 引用 ， 
现实 的 Web 客 户 将 读 取 指 定 主页 并 通过 分 析 HTML 获 悉 这 些 文件 名 。 我 们 不 想 因 加 入 HTML 分 析 
而 使 本 例 复杂 化 ， 于 是 直接 在 命令 行 上 指定 了 这 些 文件 名 。 

这 个 例子 比较 长 ， 我 们 把 它 分 成 若干 个 部 分 给 出 。 图 16-14 是 每 个 文件 都 包括 的 web.h 头 文 
件 。 





nonblock/web.h 
1 #include "unp.h" 
2 #define MAXFILES 20 
3 #define SERV "80" /* port number or service name */ 
4 struct file ( 
5 char *f name; /* filename */ 
6 char *f host; /* hostname or IPv4/IPv6 address */ 
7 int f fd; /* descriptor */ 
B int f flags; /* F xxx below */ 
9 ) file(MAXFILES]; 
10 #define F. CONNECTING 1 /* connect() in progress */ 
11 #define F READING 2 /* connect() complete; now reading */ 
12 #define F DONE 4 /* all done */ 
13 #define GET CMD "GET $s HTTP/1.0\r\n\r\n" 
14 /* globals */ 
15 int nconn, nfiles, nlefttoconn, nlefttoread, maxfd; 
16 fd set rset, wset; 
17 /* function prototypes */ 
18 void home page(const char *, const char *); 
19 void start connect(struct file *); 
20 void write get cmd(struct file *); 
nonblock/web.h 





图 16-14 web .h 头 文件 


定义 file 结 构 
2~13 ”本 程序 最 多 读 MAXFILES 个 来 自 Web 服 务 器 的 文件 。 我们 维护 一 个 file 结 构 ， 其 中 包含 
关于 每 个 文件 的 信息 : 文件 名 (复制 自命 令 行 参数 )、 文件 所 在 服务 器 主机 名 或 IP 地 址 、 
用 于 读 取 文 件 的 套 接 字 描 述 符 以 及 用 于 指定 准备 对 文件 执行 什么 操作 (连接 、 读 取 或 
完成 ) 的 一 组 标志 。 
定义 全 局 变量 和 函数 原型 
14-20 ”定义 全 局 变量 和 稍 后 讲解 的 各 个 函数 的 函数 原型 。 
图 16-15 给 出 了 程序 main 函 数 的 第 一 部 分 。 
处 理 命令 行 参 数 
11~17 ”以 来 自命 令 行 参 数 的 相关 信息 填写 file 结 构 数 组 。 
读 取 主页 
18 ”接着 给 出 的 home_page 函 数 创建 一 个 TCP 连 接 ， 发 出 一 个 命令 到 服务 器 ， 然 后 读 取 主 
页 。 这 是 第 一 个 连接 ， 需 在 我 们 开始 并 行 建立 多 个 连接 之 前 独自 完成 。 
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nonblock/web.c 
1 #include "web.h" 
2 int 
3 main(int argc, char **argv) 
4{ 
5 int i, fd, n, maxnconn, flags, error; 
6 char buf [MAXLINE]; 
7 fd set rs, wS; 
8 if {argc < 5) 
9 err quit("usage: web <#conns> «hostname» «homepage» «filel» ..."); 
10 maxnconn = atoi(argv[1]); 
11 nfiles - min(argc - 4, MAXFILES); 
12 for (i = 0; i« nfiles; i++) { 
13 file[i].f name = argv[i + 4]; 
14 file[i].f host = argv[2]; 
15 file[i].f flags = 0; 
16 ) 
17 printf("nfiles = d\n", nfiles); 
18 home page(argv[2], argv[3]); 
19 FD ZERO(&rset); 
20 FD ZERO(&wset); 
21 maxfd - -1; 
22 nlefttoread - nlefttoconn - nfiles; 
23 nconn - 0; 
nonblock/web.c 


图 16-15 ”同时 connect 程 序 的 第 一 部 分 : 全 局 变量 和 main 函 数 开 头 部 分 


初始 化 全 局 变量 
19-23 ”初始 化 两 个 描述 符 集 , 一 个 用 于 读 一 个 用 于 写 。 maxfd 是 select 需 要 的 最 大 描述 符 (我 


们 把 它 初 始 化 成 -1， 因 为 描述 符 都 是 非 负 的 )，nlefttoread 是 仍 待 读 取 的 文件 数 ( 当 
它 到 达 0 时 程序 任务 完成 ), nlefttoccnn 是 尚 无 TCP 连 接 的 文件 数 , nconn 是 当前 打开 


着 的 连接 数 〔 它 不 能 超过 第 一 个 命令 行 参数 )。 
图 16-16 给 出 了 main 函 数 一 开始 就 调用 过 一 次 的 home_page 函 数 。 


nonblock/home page.c 
1 #include "web.h" 
2 void 
3 home page(const char *host, const char *fname) 
4 ( 
5 int fd, n; 
6 char line[MAXLINE]; 
7 fd - Tcp connect(host, SERV); /* blocking connect() */ 
8 n = snprintf(line, sizeof(line), GET CMD, fname); 
9 Writen(fd, line, n); 
10 for (i; 3: Mt 
11 if ( (n = Read(fd, line, MAXLINE)) == 0) 
12 break; /* server closed connection */ 
13 printf("read %d bytes of home page\n", n); 
14 /* do whatever with data */ 
15 ) 
16 printf("end-of-file on home page\n"); 
17 Close(fd); 
18 ) 
nonblock/home page.c 





图 16-16 home_page 函 数 
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建立 与 服务 器 的 连接 
7 我们 的 tcp_connect 会 建立 一 个 与 服务 器 的 连接 。 
发 送 HTTP 命 令 到 服务 器 ， 读 取 应 答 
8-17 ”发 出 一 个 HTTP GET 命 令 以 获取 主页 〈 文 件 名 经 常 是 /)。 读 取 应 答 〈 我 们 不 对 应 答 做 任 
何 操作 )， 然 后 关闭 连接 。 
图 16-17 中 给 出 的 函数 start_connect 发 起 非 阻 塞 connect。 


nonblock/start connect.c 





1 finclude "web.h" 

2 void 

3 start connect(struct file *fptr) 

4t 

5 int fd, flags, n; 

6 struct addrinfo *ai; 

7 ai = Host serv(fptr-»f host, SERV, 0, SOCK STREAM); 

8 fd - Socket(ai-»ai family, ai-»ai, socktype, ai-»ai protocol); 
9 fptr-»f fd = fd; 

10 printf("start connect for %s, fd td\n", fptr--f name, fd); 
11 /* Set socket nonblocking */ 

12 flags = Fcntl(fd, F GETFL, 0); 

13 Fcntl(fd, F SETFL, flags | O NONBLOCK); 

14 /* Initiate nonblocking connect to the server. */ 

15 if ( (n = connect (fd, ai->ai_addr, ai-»ai addrlen)) < 0) { 
16 if (errno !- EINPROGRESS) 

17 err, Sys("nonblocking connect error"); 

18 fptr-»f flags = F CONNECTING; 

19 FD SET(fd, &rset); /* select for reading and writing */ 
20 FD SET(fd, &wset); 

21 if (fd » maxfd) 

22 maxfd - fd; 

23 ) else if (n >= 0) /* connect is already done */ 
24 write get cmd(fptr); /* write() the GET command */ 
25 ) 


nonblock/start connect.c 


图 16-17 ”发 起 非 阻 塞 connect 


创建 套 接 字 ， 设 置 为 非 阻塞 
7-13 ”调用 我 们 的 host_serv 函 数 〈( 图 11-9〉 查找 并 转换 主机 名 和 服务 名 ， 它 返回 指向 某 个 

addrinfo 结 构 数组 的 一 个 指针 。 我 们 只 使 用 其 中 第 一 个 结构 。 创 建 一 个 TCP 套 接 字 并 
把 它 设 置 为 非 阻塞 。 

发 起 非 阻塞 

14-22 发 起 非 阻塞 connect， 并 把 相应 文件 的 标志 设置 为 F_CONNECTING。 在 读 描 述 符 集 和 写 
描述 符 集中 对 应 的 位 打开 套 接 字 描述 符 , 因为 select 将 等 待 其 中 任何 一 个 条 件 变 为 真 
作为 连接 已 建立 完毕 的 指示 。 我 们 还 根据 需要 更 新 maxfd 的 值 。 

处 理 连接 建立 完成 情况 

23~24 如果 connect 成 功 返 回 ， 那 么 连接 已 经 建立 ， 于 是 调用 write_get_cmq 函 数 〈 接 着 给 

出 ) 发 送 一 个 命令 到 服务 器 。 
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我 们 为 connect 把 套 接 字 设 置 为 非 阻塞 后 ， 不 再 把 它 重 置 为 默认 的 阻塞 模式 。 这 么 做 没有 
问题 ， 因 为 我 们 只 往 套 接 字 中 写 出 少量 的 数据 〈 下 一 个 函数 中 的 GET 命 令 ， 可 以 认为 它 比 套 接 
字 发 送 缓冲 区 小 得 多 )。 即 使 write 因为 非 阻塞 标志 造成 返回 一 个 不 足 计 数 〈16.1 节 )， 我 们 的 
writen 函 数 (write 由 本 函数 间接 调用 〉 也 会 对 此 进行 处 理 。 套 接 字 继续 处 于 非 阻 塞 模式 对 于 
后 续 的 read 也 没有 影响 ， 因 为 我 们 总 是 在 调用 select 等 待 套 接 字 变 为 可 读 后 才 调用 read。 

图 16-18 给 出 了 write_get_cmd 函 数 ， 它 发 送 一 个 HTTP GET 命 令 到 服务 器 。 


nonblock/write get cmd.c 








1 include "web.h" 

2 void 

3 write get cmd(struct file *fptr) 

4 ( 

5 int n; 

6 char line [MAXLINE] ; 

7 n = snprintf(line, sizeof(line), GET CMD, fptr-»f name); 
8 Writen(fptr-»f fd, line, n); 

9 printf("wrote $d bytes for $sWn", n, fptr-»f name); 

10 fptr-»f flags = F, READING; /* clears F CONNECTING */ 
11 FD .SET(fptr-»f fd, &rset); /* will read server's reply */ 
12 if (fptr-»f fd > maxfd) 

13 maxfd = fptr-»f fà; 

14 ) 


nonblock/write get cmd.c 


图 16-18 ”发 送 一 个 HTTP GET 命 令 到 服务 器 


构造 命令 并 发 送 
7~9 构造 命令 并 写 出 到 套 接 字 。 
设置 标志 
10-23 ”设置 相应 文件 的 F_READPING 标 志 ， 它 同时 清除 F_CONNECTING 标 志 (如 果 设 置 了 的 话 )。 
该 标志 向 main 函 数 主 循环 指出 ， 本 描述 符 已 经 准备 好 提供 输入 。 在 读 描述 符 集中 打开 
与 本 描述 符 对 应 的 位 ， 并 根据 需要 更 新 maxfa。 
现在 回 到 图 16-19 给 出 的 main 函 数 主 循环 部 分 ， 它 紧 接 在 图 16-15 之 后 。 这 是 程序 的 主 循环 : 
只 要 还 有 文件 要 处 理 (nlefttoread 大 于 0)， 若 有 可 能 并 需要 的 话 就 启动 另 一 个 连接 ， 然 后 在 
所 有 活跃 的 描述 符 上 使 用 select， 以 便 既 处 理 非 阻塞 连接 的 建立 ， 又 处 理 来 自 服务 器 的 数 
据 。 
可 能 的 话 发 起 另 一 个 连接 
24-35 如果 没 有 到 达 最 大 并 行 连接 数 而 且 另 有 连接 需要 建立 ， 那 就 找到 一 个 尚未 处 理 的 文件 
(由 值 为 0 的 E_flags 指 示 )， 然 后 调用 start_connect 发 起 另 一 个 连接 。 活 跃 连接 数 
(nconn) 增 1， 仍 待 建 立 连 接 数 (nlefttoconn) 减 1。 
select: 等 待 事件 发 生 
36-37 select 等 待 的 不 是 可 读 条 件 就 是 可 写 条 件 。 有 一 个 非 阻塞 connect 正 在 进展 的 描述 符 
可 能 会 同时 开启 这 两 个 描述 符 集 ， 而 连接 建立 完毕 并 正在 等 待 来 自 服务 器 的 数据 的 描 
述 符 只 会 开启 读 描述 符 集 。 
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24 while (nlefttoread > 0) ( 
25 while (nconn « maxnconn && nlefttoconn » 0) ( 
26 /* find a file to read */ 
27 for {i = 0; i < nfiles; i++) 
28 if (file[i].£ flags == 0) 
29 break; 
30 if (i -- nfiles) 
31 err quit("nlefttoconn = $d but nothing found", nlefttoconn); 
32 start connect (&file[il):; 
33 nconn++; 
34 nlefttoconn--; 
35 } 
36 rs = rset; 
37 ws = wset; 
38 n = Select (maxfd+1, &rs, &ws, NULL, NULL); 
39 for (i = 0; i < nfiles; i++) ( 
40 flags = file[i).f_flags; 
41 if (flags == 0 || flags & F_DONE) 
42 continue; 
43 fd = file[i].f fd; 
44 if (flags & F. CONNECTING && 
45 (FD ISSET(fd, &rs) || FD ISSET(fd, &ws))) { 
46 n - sizeof(error); 
47 if (getsockopt(fd, SOL, SOCKET, SO ERROR, &error, &n) < 0 |l 
48 error != 0) { 
49 err ret("nonblocking connect failed for $s", 
50 filefi].f name); 
51 ) 
52 /* connection established */ 
53 printf("connection established for %s\n", file[i].f name); 
54 FD CLR(fd, &wset); /* no more writeability test */ 
55 write get cmd(&file[i]); /* write() the GET command */ 
56 ) else if (flags & F. READING && FD ISSET(fd, &rs)) ( 
57 if ( (n = Read(fd, buf, sizeof(buf))) == 0) ( 
58 printf("end-of-file on ts\n", file[i].f name); 
59 Close(fd); 
60 file(i].£f flags = F. DONE; /* clears F READING */ 
61 FD CLR(fd, &rset); 
62 nconn--; 
63 nlefttoread--; 
64 ) else ( 
65 printf("read $&d bytes from %s\n", n, file[i].ft name); 
66 ) 
67 ) 
68 ) 
69 ) 
70 exit(0); 
71 ] 
UR MU —— ——- nonblock/web.c 
图 16-19 _ main 函数 的 主 循环 
处 理 所 有 就 绪 的 描述 符 


39-55 ”人 遍 查 file 结 构 数 组 中 的 每 个 元 素 ， 确 定 哪些 描述 符 需 要 处 理 。 对 于 设置 了 F_CONNECT 
标志 的 一 个 描述 符 ， 如 果 它 在 读 描 述 符 集 或 写 描 述 符 集中 对 应 的 位 已 打开 ， 那 么 非 阻 
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塞 connect 已 经 完成 。 正 如 我 们 随 图 16-11 讲 述 的 那样 ， 我 们 调用 getsockopt 获 取 该 
套 接 字 的 待 处 理 错误 。 如 果 该 值 为 0， 那 么 连接 已 经 成 功 建立 。 这 种 情况 下 我 们 关闭 
该 描述 符 在 写 描述 符 集 中 对 应 的 位 ， 然 后 调用 write_get_cmq 发 送 HTTP 请 求 到 服务 


器 。 

检查 描述 符 是 否 有 数据 

56-67 ”对 于 设置 了 F_READING 标 志 的 一 个 描述 符 ， 如 果 它 在 读 描述 符 集中 对 应 的 位 已 打开 ， 
我 们 就 调用 read。 如 果 相 应 连接 被 对 端 关闭 ， 我 们 就 关闭 该 套 接 字 ， 并 设置 F_DONE 
标志 ， 然 后 关闭 该 描述 符 在 读 描述 符 集 中 对 应 的 位 ， 把 活动 连接 数 和 要 处 理 的 连接 总 
数 都 减 1。 

在 本 例子 中 我 们 有 两 个 优化 措施 没有 执行 〈 以 避免 使 程序 更 为 复杂 )。 首 先 ， 当 select 告 
知已 经 就 绪 的 那么 多 描述 符 被 处 理 完 之 后 ， 我 们 可 以 终止 图 16-19 中 select 之 后 的 for 循 环 。 其 
次 ， 如 果 可 能 的 话 我 们 可 以 减 小 maxfq 的 值 ， 省 得 select 检 查 那 些 不 再 设置 的 描述 符 位 。 既 然 
本 程序 任何 时 候 执行 处 理 的 描述 符 数 都 可 能 小 于 10 而 不 是 成 千 上 万 ， 相 比 额 外 造成 的 复杂 性 ， 
这 些 优化 措施 是 否 值 得 添加 令 人 怀疑 。 


同时 连接 的 性 能 


同时 建立 多 个 连接 的 性 能 收益 如 何 呢 ? 图 16-20 给 出 了 获取 某 个 Web 服 务 器 的 主页 并 后 跟 
来 自 该 服务 器 的 9 个 图 像 文件 所 需 的 时 钟 时 间 。 到 该 服务 器 的 RTT 约 为 150 ms。 主 页 的 大 小 为 
4017 字 节 ，9 个 图 像 文件 的 平均 大 小 为 1621 字 节 。TCP 分 节 大 小 为 512 字 节 。 为 了 便于 比较 ， 本 
图 还 包含 了 将 在 26.9 节 开发 的 本 程序 使 用 线程 的 一 个 版 本 的 这 些 数据 。 
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图 16-20 各 个 同时 连接 数 的 时 钟 时 间 


主要 的 性 能 改善 是 在 同时 连接 数 为 3 的 时 候 取 得 的 (时 钟 时 间 减 半 ), 同时 连接 数 为 4 或 更 多 
的 时 候 性 能 增长 要 少 得 多 。 


我 们 提供 这 个 使 用 同时 连接 的 例子 是 因为 它 是 一 个 使 用 非 阻塞 式 HO 的 好 例子 ， 而 且 它 对 
性 能 的 影响 可 以 测量 出 来 。 这 也 是 一 个 流行 的 Web 应 用 程序 即 Netscape 浏 览 器 使 用 的 特性 之 
一 。 然 而 如 果 网 络 中 存在 拥塞 ， 这 个 技术 就 会 有 缺陷 。TCPv1 的 第 21 章 介绍 了 TCP 的 慢 启 动 
和 拥塞 避免 算法 的 细节 。 当 从 一 个 客户 到 一 个 服务 器 建立 多 个 连接 时 ， 这 些 连接 之 间 在 TCP 
层 并 无 通信 。 也 就 是 说 ， 即 使 其 中 一 个 连接 遇 到 分 组 丢失 ( 隐 式 指示 网 络 已 经 拥塞 )，IP 地 址 
对 相同 的 其 他 连接 也 不 会 得 到 通知 ， 这 种 情况 下 这 些 连接 很 可 能 马上 机 到 分 组 丢失 ， 除 非 它 
们 事先 得 到 通知 而 慢 下 来 。 这 些 额 外 的 连接 是 在 往 已 经 拥塞 的 网 络 中 发 送 更 多 的 分 组 。 这 个 
技术 还 会 增加 服务 器 主机 的 负荷 。 
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16.6 dEfH3E accept 


我 们 在 第 6 章 中 陈述 过 ， 当 有 一 个 已 完成 的 连接 准备 好 被 accept 时 ，select 将 作为 可 读 描 
述 符 返 回 该 连接 的 监听 套 接 字 。 因 此 ， 如 果 我 们 使 用 select 在 某 个 监听 套 接 字 上 等 待 一 个 外 来 
连接 ， 那 就 没有 必要 把 该 监听 套 接 字 设 置 为 非 阻塞 ， 这 是 因为 如 果 select 告 诉 我 们 该 套 接 字 上 
己 有 连接 就 绪 ， 那 么 随后 的 accept 调 用 不 应 该 阻塞 。 

不 幸 的 是 ， 这 里 存在 一 个 可 能 让 我 们 掉 入 陷阱 的 定时 问题 [Gierth 1996]。 为 了 查看 这 个 问 
题 ， 我 们 首先 把 图 $-4 中 的 TCP 回 射 客户 程序 改写 成 建立 连接 后 发 送 一 个 RST 到 服务 器 。 图 16-21 
给 出 了 这 个 新 版 本 。 








nonblock/tcpcli03.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd; 
6 struct linger ling; 
7 struct sockaddr_in servaddr; 
8 if (argc != 2) 
9 err quit("usage: tcpcli «IPaddress»"); 
10 sockfd - Socket(AF INET, SOCK STREAM, 0); 
11 bzero(&servaddr, sizeof(servaddr)); 
12 servaddr.sin family - AF INET; 
13 servaddr.sin port = htons(SERV PORT); 
14 Inet pton(AF INET, argv[1], &servaddr.sin addr); 
15 Connect(sockfd, (SA *) &servaddr, sizeof(servaddr)); 
16 ling.l onoff = 1; /* cause RST to be sent on close() */ 
17 ling.l linger = 0; 
18 Setsockopt (sockfd, SOL SOCKET, SO LINGER, &ling, sizeof(ling)); . 
19 Close (sockfd); 
20 exit(0); 
21 ) 
nonblock/tcpcli03.c 








图 16-21 建立 连接 并 发 送 一 个 RST 的 TCP 回 射 客户 程序 


设置 so_LINGER 套 接 字 选 项 
16-19 ”一旦 连接 建立 ,我 们 设置 so_LINGER 套 接 字 选 项 ,把 1_onoff 标 志 设 置 为 1, 把 1_linger 
时 间 设 置 为 0。 正 如 7.5 节 所 述 ， 这 样 的 设置 导致 连接 被 关闭 时 在 TCP 套 接 字 上 发 送 一 
个 RST。 我 们 随后 关闭 该 套 接 字 。 
我 们 接着 修改 图 6-21 和 6.22 中 的 TCP 回 射 服务 器 程序 ， 在 select 返 回 监听 套 接 字 的 可 读 条 
件 之 后 但 在 调用 accept 之 前 暂停 。 在 下 面 这 段 来 自 图 6-22 开 头 的 代码 中 ， 以 加 号 打头 的 那 两 行 
是 新 加 的 。 


if (FD ISSET(listenfd, &rset)) ( /* new client connection */ 
+ printf("listening socket readable\n"); 
+ sleep(5); 


clilen = sizeof(cliaddr); 
connfd - Accept(listenfd, (SA *) &cliaddr, &clilen); 
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这 里 我 们 是 在 模拟 一 个 繁忙 的 服务 器 , 它 无 法 在 select 返 回 监听 套 接 字 的 可 读 条 件 后 就 马 
上 调用 accpet。 通 常情 况 下 服务 器 的 这 种 迟钝 不 成 问题 〈 实 际 上 这 就 是 要 维护 一 个 已 完成 连接 
队列 的 原因 )， 但 是 结合 上 连接 建立 之 后 到 达 的 来 自 客户 的 RST， 问 题 就 出 现 了 。 

我 们 在 5.11 节 指出 ， 当 客户 在 服务 器 调用 accept 之 前 中 止 某 个 连接 时 ， 源 自 Berkeley 的 实 
现 不 把 这 个 中 止 的 连接 返回 给 服务 器 ,而 其 他 实现 应 该 返回 ECONNABORTED 错 误 , 却 往 往 代 之 以 
返回 EPROTO 错 误 。 考 虑 一 个 源 自 Berkeley 的 实现 上 的 如 下 例子 。 

e 客户 如 图 16-21 所 示 建 立 一 个 连接 并 随后 中 止 它 。 

e select 向 服务 器 进程 返回 可 读 条 件 ， 不 过 服务 器 要 过 一 小 段 时 间 才 调用 accept。 

© 在 服务 器 从 select 返 回 到 调用 accept 期 间 ， 服 务 器 TCP 收 到 来 自 客户 的 RST。 

e 这 个 已 完成 的 连接 被 服务 器 TCP 驱 除 出 队列 ， 我 们 假设 队列 中 没有 其 他 已 完成 的 连接 。 

e 服务 器 调用 accept， 但 是 由 于 没有 任何 已 完成 的 连接 ， 服 务 器 于 是 阻塞 。 

服务 器 会 一 直 阻 塞 在 accept 调 用 上 , 直到 其 他 某 个 客户 建立 一 个 连接 为 止 。 但 是 在 此 期 间 ， 
就 以 图 6-22 给 出 的 服务 器 程序 为 例 ， 服 务 器 单纯 阻塞 在 accept 调 用 上 ， 无 法 处 理 任何 其 他 已 就 绪 
的 描述 符 。 


本 问题 和 6.8 节 讲述 的 拒绝 服务 攻击 多 少 有 些 类 似 ， 不 过 对 于 这 个 新 的 缺陷 ， 一 旦 另 有 客 
户 建立 一 个 连接 ， 服 务 器 就 会 脱出 阻塞 中 的 accept。 


本 问题 的 解决 办 法 如 下 。 

(1) 当 使 用 select 获 悉 某 个 监听 套 接 字 上 何 时 有 已 完成 连接 准备 好 被 accept 时 ， 总 是 把 这 
个 监听 套 接 字 设 置 为 非 阻 塞 。 

(2) 在 后 续 的 accept 调 用 中 忽略 以 下 错误 : EWOULDBLOCK (〈 源 自 Berkeley 的 实现 ， 客 户 中 止 
连接 时 )、ECONNABORTED (POSIX 实 现 ， 客 户 中 止 连接 时 )、EPROTO (SVR4 实 现 ， 客 户 中 
止 连接 时 ) 和 EINTR (如 果 有 信号 被 捕获 )。 
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16.7 小结 


16.2 节 给 出 的 非 阻 塞 读 与 写 的 例子 取 自 5.$ 节 和 6.4 节 调用 str_cli 函 数 的 回 射 客 户 程序 ， 改 
写成 在 客户 与 服务 器 的 TCP 连 接 上 使 用 非 阻 塞 式 UHO 。select 通 常 结合 非 阻塞 式 1O 一 起 使 用 ， 
以 便 判 断 描述 符 何 时 可 读 或 可 写 。 这 个 版 本 的 客户 程序 是 我 们 给 出 的 所 有 版 本 中 执行 速度 最 快 
的 ， 尽 管 其 代码 修改 确 非 易 事 。 在 这 之 后 我 们 展示 说 明 使 用 fork 把 客户 程序 划分 成 两 部 分 由 不 
同 进程 分 别 执行 要 简单 得 多 ， 我 们 将 在 图 26-2 中 改 用 线程 应 用 同样 的 技术 。 

非 阻 塞 connect 使 我 们 能 够 在 TCP 三 路 握手 发 生 期 间 做 其 他 处 理 , 而 不 是 光 阻 塞 在 connect 
上 。 不 幸 的 是 ， 非 阻塞 connect 不 可 移植 ， 不 同 的 实现 有 不 同 的 手段 指示 连接 已 成 功 建立 或 已 
碰 到 错误 。 我 们 使 用 非 阻塞 connect 开 发 了 一 个 新 型 客户 程序 ， 它 类 似 同时 打开 多 个 TCP 连 接 
以 减少 从 单个 服务 器 取得 多 个 文件 所 需 时 钟 时 间 的 Web 客 户 程序 。 如 此 发 起 多 个 连接 可 以 减少 
时 钟 时 间 ， 不 过 考虑 到 TCP 的 拥塞 避免 机 制 ， 它 是 对 网 络 不 利 的 。 
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161 在 关于 图 16-10 的 讨论 中 我 们 提 到 过 ， 父 进程 必须 调用 shutdown 而 不 是 close。 这 是 为 什么 ? 
16.2 在 图 16-10 中 ， 如 果 服 务 器 进程 过 早 终 止 ,而 客户 子 进程 收 到 来 自 服务 器 的 EOF 后 不 通知 父 进程 就 终 
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16.3 
16.4 


16.5 


止 ， 将 会 发 生 什 么 ? 
在 图 16-10 中 , 如 果 父 进程 在 子 进程 之 前 意外 死亡 , 而 子 进程 随后 从 套 接 字 读 到 EOF, 将 会 发 生 什么 ? 
在 图 16-11 中 如 果 删 掉 以 下 两 行将 会 发 生 什么 ? 
if in ==:0) 

goto done; /* connect completed immediately */ 
我 们 在 16.3 节 说 过 ， 米 自 对 端的 数据 有 可 能 在 本 端的 connect 调 用 返回 前 到 达 套 接 字 。 这 是 如 何 发 
生 的 ? 


CC 一 


ioctl 操作 


riba rr etd ot 


17.1 概述 


ioct1 函 数 传统 上 一 直 作 为 那些 不 适合 归 入 其 他 精细 定义 类 别 的 特性 的 系统 接口 。POSIX 
致力 于 摆脱 处 于 标准 化 过 程 中 的 特定 功能 的 ioct1 接 口 ， 办 法 是 为 它们 创造 一 些 特殊 的 函数 以 
取代 ioct1 请 求 。 举 例 来 说 ，Unix 终 端 接口 传统 上 使 用 iotcl 访 问 ， 然 而 POSIX 为 终端 创造 了 12 
个 新 函数 : tcgetattr 用 于 获取 终端 属性 ，tcflush 用 于 冲刷 待 处 理 输入 或 输出 ， 等 等 。 类 似 
地 , POSIX 替 换 了 一 个 用 于 网 络 的 ioct1 请 求 : 新 的 sockatmark 函 数 (24.3 节 ) 取代 SIOCATMARK 
ioct1。 尽 管 如 此 ， 为 与 网 络 编程 相关 且 依 赖 于 实现 的 特性 保留 的 ioct1 请 求 为 数 依然 不 少 ， 它 
们 用 于 获取 接口 信息 、 访 问 路 由 表 、 访 问 ARP 高 速 缓存 ， 等 等 。 

本 章 给 出 与 网 络 编程 相关 的 ioct1 请 求 的 概貌 ， 其 中 有 许多 依赖 于 具体 的 实现 。 此 外 ， 包 
括 源 自 4.4BSD 的 系统 和 Solairs 2.6 及 以 后 版 本 在 内 的 一 些 实现 改 用 AF_ROUTE 域 套 接 字 〈( 路 由 套 
接 字 ) 来 完成 其 中 许多 操作 。 我 们 将 在 第 18 章 讨论 路 由 套 接 字 。 

网 络 程序 〈 特 别 是 服务 器 程序 ) 经常 在 程序 启动 执行 后 使 用 ioct1 获 取 所 在 主机 全 部 网 络 
接口 的 信息 ， 包 括 : 接口 地 址 、 是 否 支 持 广播 、 是 否 支持 多 播 ， 等 等 。 我 们 将 自行 开发 用 于 返 
回 这 些 信息 的 函数 ， 在 本 章 提供 一 个 使 用 ioct1 的 实现 ， 在 第 18 章 再 提供 一 个 使 用 路 由 套 接 字 
的 实现 。 





17.2 ioctl 函数 





本 函数 影响 由 /2 参数 引用 的 一 个 打开 的 文件 。 


#include <unistd.h> 


int ioctl(int fd, int request, ... /* void *arg */ ); 


返回 ， 若 成 功 则 为 0， 若 出 错 则 为 -1 
其 中 第 三 个 参数 总 是 一 个 指针 ， 但 指针 的 类 型 依赖 于 request 参 数 。 


4.4BSD 把 第 三 个 参数 定义 为 unsigned long 而 不 是 int， 不 过 这 不 成 问题 ， 因 为 用 作 这 
个 参数 的 常 值 由 头 文件 定义 。 只 要 原型 在 范围 内 ( 例如 使 用 ioct1 的 程序 包含 了 <unistd.h> 
头 文件 )， 那 么 系统 使 用 的 就 是 正确 的 类 型 。 

一 些 实现 把 第 三 个 参数 指定 为 void * 指 针 而 不 是 ANSIC 省 略 号 记 法 。 

定义 ioct1 函 数 原型 的 头 文件 没有 标准 ， 因 为 POSIX 未 对 它 进行 标准 化 。 许 多 系统 如 上 
所 示 地 在 <unistd.h> 中 定义 它 ， 不 过 传统 的 BSD 系 统 在 <sysy/ioctl.h> 中 定义 它 。 


我 们 可 以 把 和 网 络 相关 的 请 求 Crequest). 划分 为 6 类 : 
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e 套 接 字 操作 ; 

e 文件 操作 ; 

e 接口 操作 ; 

e ARP 高 速 缓存 操作 ; 

e 路 由 表 操作 ; 

e 流 系 统 〈 见 第 31 章 )。 

回顾 图 7-20， 我们 知道 不 但 某 些 ioct1 操 作 和 某 些 fcnt1 操 作 功 能 重 营 (譬如 把 套 接 字 设置 
为 非 阻塞 )， 而 且 某 些 操作 可 以 使 用 ioct1 以 不 止 一 种 方式 指定 〈 璧 如 设置 套 接 字 的 进程 组 属 


+). 


图 17-1 列 出 了 网 络 相关 ioct1 请 求 的 regvest 参 数 以 及 arg 地 址 必须 指向 的 数据 类 型 。 


节 详 细 讲 解 这 些 请 求 。 


17.3” 套 接 字 操作 





TEN 


iy | SIOCATMARK 是 否 位 于 带 外 标记 int 
SIOCSPGRP 设置 套 接 字 的 进程 ID 或 进程 组 ID | int 
SIOCGPGRP 获取 套 接 字 的 进程 ID 或 进程 组 ID — | int 

文件 int 


FIONBIO 设置 /清除 非 阻塞 式 IO 标 志 




































FIOASYNC 设置/ 清除 信号 驱动 异步 JO 标 志 
FIONREAD 获取 接收 缓冲 区 中 的 字 节 数 
FIOSETOWN 设置 文件 的 进程 ID 或 进程 组 ID 









FIOGETOWN 
SIOCGIFCONF 


获取 文件 的 进程 ID 或 进程 组 ID 
获取 所 有 接口 的 列表 












struct ifconf 



















































































SIOCSIFADDR 设置 接口 地 址 struct ifreq 
SIOCGIFADDR 获取 接口 地 址 struct ifreq 
SIOCSIFFLAGS 设置 接口 标志 struct ifreq 
SIOCGIFFLAGS 获取 接口 标志 struct ifreq 
SIOCSIFDSTADDR 设置 点 到 点 地 址 struct ifreq 
SIOCGIFDSTADDR 获取 点 到 点 地 址 struct ifreq 
SIOCGIFBRDADDR 获取 广播 地 址 struct ifreq 
SIOCSIFBRDADDR 设置 广播 地 址 struct ifreq 
SIOCGIFNETMASK 获取 子 网 掩 码 struct ifreq 
SIOCSIFNETMASK 设置 子 网 掩 码 struct ifreq 
SIOCGIFMETRIC 获取 接口 的 测度 struct ifreq 
SIOCSIFMETRIC 设置 接口 的 测度 struct ifreq 
SIOCGIFMTU 获取 接口 MTU struct ifreq 




















SIOCox (还 有 很 多 ; 取决 于 实现 ) struct ifreq 
SIOCSARP 创建 /修改 ARP 表 项 struct arpreq 
SIOCGARP 获取 ARP 表 项 struct arpreq 
SIOCDARP 删除 ARP 表 项 struct arpreq 


SIOCADDRT 增加 路 径 struct rtentry 
[| X [|i o deras -| 
图 17-1 ”网 络 相 关 ioct1 请 求 的 总 结 


以 下 各 
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明确 用 于 套 接 字 的 ioct1 请 求 有 3 个 (TCPv2 第 551~553 页 )。 它 们 都 要 求 ioct1 的 第 三 个 参 
数 是 指向 某 个 整数 的 一 个 指针 。 
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SIOCATMARK ”如 果 本 套 接 字 的 读 指针 当前 位 于 带 外 标记 , 那 就 通过 由 第 三 个 参数 指向 的 整 
数 返 回 一 个 非 0 值 ， 否 则 返回 一 个 0 值 。 我 们 将 在 第 24 章 详细 讲解 带 外 数据 。 
POSIX 以 函数 sockatmark 替 换 本 请 求 ， 我 们 将 在 24.3 节 给 出 这 个 新 函数 使 
用 ioct1 的 一 个 实现 。 

SIOCGPGRP “通过 由 第 三 个 参数 指向 的 整数 返回 本 套 接 字 的 进程 ID 或 进程 组 ID， 该 ID 指 
定 针 对 本 套 接 字 的 sSIGIO 或 sIGURG 信 号 的 接收 进程 。 本 请 求 和 fcnt1 的 
F_GETOWN 命 令 等 效 ， 而 图 7-20 指 出 POSIX 标 准 化 的 是 fcnt1 操 作 。 

SIOCSPGRP ”把 本 套 接 字 的 进程 ID 或 进程 组 ID 设置 成 由 第 三 个 参数 指向 的 整数 ， 该 ID 指 
定 针 对 本 套 接 字 的 sSIGIO 或 sSIGURG 信 号 的 接收 进程 。 本 请 求 和 fcnt1 的 
F_SETOWN 命 令 等 效 ， 而 图 7-20 指 出 POSIX 标 准 化 的 是 Ecnt1 操 作 。 


下 一 组 请 求 以 FIO 打 头 ， 它 们 可 能 还 适用 于 除 套 接 字 外 某 些 特定 类 型 的 文件 。 本 节 仅 仅 讨 
论 适 用 于 套 接 字 的 请 求 (TCPv2 第 553 页 )。 以 下 5 个 请 求 都 要 求 ioct1 的 第 三 个 参数 指向 一 个 整 
数 。 
FIONBIO 根据 ioct1 的 第 三 个 参数 指向 一 个 0 值 或 非 0 值 ,可 清除 或 设置 本 套 接 字 的 非 阻 
塞 式 LO 标志 。 本 请 求 和 oO_NONBLOCK 文 件 状 态 标 志 等 效 ， 而 可 以 通过 fcnt1 
的 F_SETFL 命 令 清除 或 设置 该 标志 。 
FIOASYNC ”根据 ioct1 的 第 三 个 参数 指向 一 个 0 值 或 非 0 值 ， 可 清除 或 设置 针对 本 套 接 字 
的 信号 驱动 异步 WO 标志 ， 它 决定 是 否 收取 针对 本 套 接 字 的 异步 VO 信号 
(SIGIO)。 本 请 求 和 o_asYNc 文 件 状 态 标志 等 效 , 而 可 以 通过 fcnt1 的 F_SETFL 
命令 清除 或 设置 该 标志 。 
FIONREAD ”通过 由 ioct1 的 第 三 个 参数 指向 的 整数 返回 当前 在 本 套 接 字 接 收 缓冲 区 中 的 
字 节 数 。 本 特性 同样 适用 于 文件 、 管道 和 终端 , 我 们 已 在 14.7 节 讨论 过 本 请 求 。 
FIOSETOWN ”对 于 套 接 字 和 sIOCSPGRP 等 效 。 
FIOGETOWN “对 于 套 接 字 和 STOCGPGRP 等 效 。 


Rd 
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需 处 理 网 络 接 口 的 许多 程序 沿用 的 初始 步骤 之 一 就 是 从 内 核 获 取 配 置 在 系统 中 的 所 有 接 
口 。 本 任务 由 SIOCGIFCONF 请 求 完 成 ， 它 使 用 ifconf 结 构 ，ifconf 又 使 用 ifreq 结 构 ， 图 17-2 
给 出 了 这 两 个 结构 的 定义 。 

在 调用 ioct1 前 我 们 先 分 配 一 个 缓冲 区 和 一 个 ifconf 结 构 ， 然 后 初始 化 后 者 。 图 17-3 展 示 
了 这 个 ifconf 结 构 的 初始 化 结果 ， 其 中 假设 缓冲 区 的 大 小 为 1024 字 节 。ioct1 的 第 三 个 参数 指向 
这 样 的 ifconf 结 构 。 

假设 内 核 返回 2 个 ifreaq 结 构 ， 在 ioct1 返 回 时 通过 同一 个 ifconf 结 构 所 返回 的 值 如 图 17-4 
所 示 。 阴 影 区 域 为 被 ioct1 修 改过 的 部 分 。 缓 冲 区 中 填 入 了 那 2 个 ifreq 结 构 ，ifconf 结 构 的 
ifc_len 成 员 也 被 更 新 ， 以 反映 存放 在 缓冲 区 中 的 信息 量 。 本 图 假设 每 个 ifreq 结 构 占 用 32 个 字 
节 。 
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—— n eife 
struct ifconf { 


lint ifc_len; /* size of buffer, value-result */ 
union ( 
caddr t ifcu buf; /* input from user -» kernel */ 
struct ifreq *ifcu, req; /* return from kernel -» user */ 


) ifc ifcu; 


}; 


#define ifc_buf ifc ifcu.ifcu buf /* buffer address */ 
#define ifc req ifc ifcu.ifcu req /* array of structures returned */ 
$define IFNAMSIZ 16 
struct ifreq ( 
char ifr name[IFNAMSIZ]; /* interface name, e.g., “le0" */ 
union ( 


struct sockaddr ifru, addr; 

struct sockaddr ifru dstaddr; 

struct sockaddr ifru broadaddr; 

short ifru flags; 

int ifru metric; 

caddr_t ifru data; 

) ifr ifru; 

}; 
#define ifr_addr ifr_ifru.ifru_addr /* address */ 
#define ifr_dstaddr ifr_ifru.ifru_dstaddr  /* other end of p-to-p link */ 
#define ifr broadaddr ifr ifru.ifru broadaddr /* broadcast address */ 


#define ifr flags ifr ifru.ifru flags /* flags */ 
#define ifr metric ifr ifru.ifru metric /* metric */ 
8$define ifr data ifr ifru.ifru data /* for use by interface */ 


«net/if.h» 
图 17-2 ”用 于 接口 类 各 个 ioct1 请 求 的 tfconf 结 构 和 ifrea 结 构 


ifconf() 





17-3 ”SIOCGIFCONF 前 ifconf 结 构 的 初始 化 结果 
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套 接 字 地 址 结构 


ifc. name[] 


套 接 字 地 址 结构 


图 17-4 SIOCGIFCONF 返 回 的 值 


指向 某 个 ifreq 结 构 的 指针 也 用 作 图 17-1 所 示 接 口 类 其 余 ioct1 请 求 的 一 个 参数 , 对 此 我 们 
将 在 17.7 节 继续 讲解 。 注 意 ifreg 结 构 中 含有 一 个 联合 ， 而 众多 #aefine 隐 藏 了 这 些 字 段 实际 上 
是 该 联合 的 成 员 这 一 事实 。 对 于 该 联合 某 个 成 员 的 所 有 引用 都 使 用 如 此 定义 的 名 字 。 注 意 有 些 
系统 往 这 个 ifr_ifru 联 合 中 增添 了 许多 依赖 于 实现 的 成 员 。 


ifconf() 
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ifreq{} 










ifreq{} 





17.6 get ifi info 函数 : : 
既然 很 多 程序 需 知 道 系 统 中 的 所 有 接口 , 我 们 于 是 开发 一 个 名 为 get_ifi_info 的 函数 , € 

返回 一 个 结构 链表 ， 其 中 每 个 结构 对 应 一 个 当前 处 于 “up”( 在 工 ) 状态 的 接口 。 我 们 在 本 节 使 

FASIOCGIFCONF ioct1 实 现 这 个 函数 ， 在 第 18 章 中 将 开发 一 个 使 用 路 由 套 接 字 的 版 本 。 


FreeBSD 提 供 了 一 个 实现 类 似 功能 的 名 为 get ifaddrs 的 函数 .。 
搜索 FreeBSD 4.8 的 整个 源 代码 树 发 现 有 12 个 程序 发 出 SIOCGIFCONF ioct1 请 求 以 确定 
存在 的 接口 。 


我 们 首先 在 一 个 名 为 unpifi .h 的 新 头 文件 中 定义 ifi_info 结 构 ， 如 图 17-5 所 示 。 

9-21 ”我 们 的 函数 返回 一 个 本 结构 的 链表 ， 其 中 每 个 结构 的 ifi_next 成 员 指向 下 一 个 
结构 。 我 们 在 本 结构 中 返回 了 典型 的 应 用 程序 可 能 关注 的 信息 : 接口 名 字 、 接 口 
索引 、MTU、 硬 件 地 址 〈 璧 如 以 太 网 地 址 )、 接 口 标志 〈 以 便 应 用 程序 判断 接口 
是 否 支持 广播 或 多 播 ， 或 是 一 个 点 到 点 接口 )、 接 口 地 址 、 广 播 地 址 、 点 到 点 链 
路 的 目的 地 址 。 用 于 存放 ifi_info 结 构 和 其 中 所 含 套 接 字 地 址 结构 的 内 存 空间 
都 是 动态 获取 的 。 我 们 于 是 还 提供 一 个 名 为 free_ifi_info 的 函数 以 释放 所 有 动 
态 获取 的 内 存 空间 。 
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lib/unpifi.h 


1 /* Our own header for the programs that need interface configuration info. 
2 Include this file, instead of "unp.h". */ 
3 
4 


#ifndef _ unp ifi h 
#define . unp ifi h 


5 #include "unp.h" 
6 #include «net/if 


7 #define IFI NAME 
8 («define IFI, HADDR 


9 struct ifi info ( 

10 char ifi name[ 
11 short ifi index 
12 short ifi mtu; 


.h» 


16 /* 
8 /* 


IFI NAME]; ir 
; /* 
/* 


13 u_char ifi haddr[IFI HADDR]; 

14 u short ifi hlen; /* 
15 short ifi flags; /* 
16 short ifi myfiags; /* 


17 struct sockaddr 
18 struct sockaddr 
19 struct sockaddr 
20 struct ifi info 
21 ); 


22 #define IFI ALIAS 


27 #endif /* _ unp if 





构 。 


*ifi addr;  /* 
*ifi, brdaddr; 
*ifi dstaddr; 
*ifi next;  /* 


1 thd 


same as IFNAMSIZ in <net/if.h> */ 
allow for 64-bit EUI-64 in future */ 


interface name, null-terminated */ 
interface index */ 
interface MTU */ 
/* hardware address */ 
# bytes in hardware address: 0, 6, 8 */ 
IFF_xxx constants from <net/if.h> */ 
our own IFI_xxx flags */ 
primary address */ 
/* broadcast address */ 
/* destination address */ 
next of these structures */ 


ifi_addr is an alias */ 


/* function prototypes */ 
24 struct ifi_info *get_ifi_info(int, int); 
25 struct ifi info *Get ifi info(int, int); 
26 void free ifi info(struct ifi info *); 


ih */ 


lib/unpifi.h 


图 17-5 _ unpifi.h 头 文件 


在 给 出 get_ifi_info 函 数 的 实现 之 前 ,我 们 先 给 出 一 个 调用 该 函数 并 随后 输出 所 有 信息 的 
简单 程序 。 该 程序 是 ifconfig 程 序 的 一 个 微型 版 本 ， 如 图 17-6 所 示 。 
18-47 ”本 程序 是 一 个 for 循 环 , 调用 get_ifi_info 一 次 后 遍历 所 返回 的 所 有 ifi_info 结 


20~36 ”显示 接口 的 名 字 、 索 引 和 标志 。 如 果 硬 件 地 址 长 度 大 于 0， 那 就 将 其 显示 为 十 六 进 
制 数 的 形式 。( 如 果 无 法 得 到 硬件 地 址 ，get_ifi_info 函 数 返回 的 ifi_hlen 值 将 


为 0。) 


37~46 ”如 果 返 回 的 话 ， 显 示 MTU 和 那 3 个 IP 地 址 。 
如 果 在 主机 macosx《〈 图 1-16) 上 执行 这 个 程序 ， 我 们 得 到 如 下 输出 。 


macosx $ prifinfo inet4 0 


100: «UP MCAST LOOP > 
MTU: 16384 
IP addr: 127.0.0.1 
enl: «UP BCAST MCAST » 
MTU: 1500 
IP addr: 172.24.37.7 
broadcast addr: 172. 


8 
24.37.95 
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ioctl/prifinfo.c 
1 #include "unpifi.h" 
2 int 
3 main(int argc, char **argv) 
4 ( 
5 struct ifi info *ifi, *ifihead; 
6 struct sockaddr *sa; 
7 u char *ptr; 
8 int i, family, doaliases; 
9 if (argc !- 3) 
10 err quit("usage: prifinfo <inet4|inet6> «doaliases»"); 
11 if (strcmp(argv[1], "inet4") == 0) 
12 family = AF INET; 
13 else if (strcmp(argv[1], "inet6") == 0) 
14 family = AF. INET6; 
15 else 
16 err quit("invalid <address-family>"); 
17 doaliases - atoi(argv[2]); 
18 for (ifihead = ifi = Get ifi info(family, doaliases); 
19 ifi !- NULL; ifi = ifi-»ifi next) ( 
20 printf("$s: ", ifi-»ifi, name); 
21 if (ifi-»ifi index !- 0) 
22 printf("($d) ", ifi-»ifi index); 
23 printf("«"); 
24 if (ifi-»ifi flags & IFF UP) printf("UP "); 
25 if (ifi-»ifi flags & IFF, BROADCAST) printf("BCAST "); 
26 if (ifi-»ifi flags & IFF_MULTICAST) printf("MCAST "); 
27 if (ifi-»ifi flags & IFF LOOPBACK) printf("LOOP "); 
28 if (ifi-»ifi flags & IFF POINTOPOINT) printf("P2P "); 
29 printf(*2An"); 
30 if ( (i = ifi->ifi_hlen) > 0) { 
31 ptr = ifi->ifi_haddr; 
32 do { 
33 printf ("%s%x", (i == ifi-»ifi hlen) ? " " : ":", *ptr«4); 
34 ) while (--i » 0); 
35 printf ("Mn"); 
36 ) 
37 if (ifi-»ifi mtu != 0) 
38 printf(" MTU: $dWMn", ifi-»ifi mtu); 
39 if ( (sa = ifi-»ifi addr) !- NULL) 
40 printf(" IP addr: %s\n", Sock ntop host(sa, sizeof(*sa))); 
41 if ( (sa = ifi->ifi_brdaddr) != NULL) 
42 printf(" broadcast addr: $sWn", 
43 Sock_ntop_host (sa, sizeof(*sa))); 
44 if ( (sa = ifi->ifi_dstaddr) != NULL) 
45 printf(" destination addr: $sWn", 
46 Sock ntop host(sa, sizeof (*sa))); 
47 } 
48 free_ifi_info(ifihead) ; 
49 exit (0); 
50 ) 
ioctl/prifinfo.c 


图 17-6 调用 get_ifi_info 函 数 的 prifinfo 程 序 


第 一 个 命令 行 参 数 inet4 指 定 IPv4 地 址 ， 第 二 个 命令 行 参数 0 指定 不 返回 地 址 别名 我 们 将 
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在 A.4 节 讲解 下 地 址 别名 )。 注 意 在 MacOS X 系 统 上 ， 使 用 这 种 方法 无 法 得 到 以 太 网 接口 的 硬件 
地 址 。 

如 果 给 以 太 网 接口 (en1) 增设 3 个 别名 地 址 (它们 的 主机 ID 分 别 为 79、80 和 81)， 并 且 把 
第 二 个 命令 行 参 数 改 为 1， 我 们 会 得 到 以 下 结果 。 


maxosx $ prifinfo inet4 1 
lo0: «UP MCAST LOOP > 
MTU: 16384 
IP addr: 127.0.0.1 
eni: «UP BCAST MCAST » 
MTU: 1500 
IP addr: 172.24.37.78 主 卫 地 址 
broadcast addr: 172.24.37.95 
enl: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.79 第 一 个 别名 地 址 
broadcast addr: 172.24.37.95 
enl: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.80 第 二 个 别名 地 址 
broadcast addr: 172.24.37.95 
enl: «UP BCAST MCAST > 
MTU: 1500 
IP addr: 172.24.37.81 第 三 个 别名 地 址 
broadcast addr: 172.24.37.95 


如 果 在 FreeBSD 系 统 上 运行 同样 的 程序 ， 不 过 使 用 图 18-16 中 的 get_ifi_info 实 现 《〈 使 用 
这 个 实现 可 以 很 容易 地 获取 硬件 地 址 )， 我 们 得 到 以 下 结果 。 


freebsd4 % prifinfo inet4 1 
de0: «UP BCAST MCAST > 
0:80:c8:2b:d9:28 
IP addr: 135.197.17.100 
broadcast addr: 135.197.17.255 
del: «UP BCAST MCAST » 
0:40:5:42:d6:de 
IP addr: 172.24.37.94 -EIPHSAI 
broadcast addr: 172.24.37.95 
del: «UP BCAST MCAST » 
0:40:5:42:d6:de 
IP addr: 172.24.37.93 别名 地 址 
broadcast addr: 172.24.37.93 
100: «UP MCAST LOOP » 
IP addr: 127.0.0.1 


在 本 例 中 我 们 指示 程序 输出 别名 地 址 ， 结 果 发 现 第 二 个 以 太 网 接口 (de1) 定义 了 一 个 主 
机 ID 为 93 的 别名 。 
下 面 给 出 使 用 sIOCGIFCONF iocti 实 现 的 get_ifi_info 函 数 。 图 17-7 给 出 第 一 部 分 ， 它 从 
内 核 获取 接口 配置 。 
创建 一 个 网 际 网 套 接 字 
12 ”创建 一 个 用 于 ioct1 的 UDP 套 接 字 。TCP 套 接 字 或 UDP 套 接 字 都 可 以 使 用 (TCPv2 第 163 
页 )。 
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———Ó—ÀÓ oe lib/get ifi info.c 





1 #include "unpifi.h" 


2 struct ifi info * 
3 get ifi info(int family, int doaliases) 


4 { 
5 struct ifi_info *ifi, *ifihead, **ifipnext; 
6 int sockfd, len, lastlen, flags, myflags, idx = 0, hlen = 0; 
7 char *ptr, *buf, lastname[IFNAMSIZ], *cptr, *haddr, *sdlname; 
8 struct ifconf ifc; 
9 struct ifreq *ifr, ifrcopy; 
10 struct sockaddr in *sinptr; 
11 struct sockaddr, in6 *sin6ptr; 
12 Sockfd - Socket(AF INET, SOCK DGRAM, 0); 
13 lastlen - 0; 
14 len = 100 * sizeof(struct ifreq); /* initial buffer size guess */ 
15 for (; : 2) 0 
16 buf = Malioc(2len); 
17 ifc.ifc len - len; 
18 ifc.ifc buf - buf; 
19 if (ioctl(sockfd, SIOCGIFCONF, &ifc) < 0) ( 
20 if (errno != EINVAL || lastlen !- 0) 
21 err sys("ioctl error"); 
22 ) else { 
23 if (ifc.ifc len -- lastlen) 
24 break; /* success, len has not changed */ 
25 lastlen - ifc.ifc len; 
26 } 
27 len += 10 * sizeof(struct ifreq);  /* increment */ 
28 free (buf); 
29 } 
30 ifihead = NULL; 
31 ifipnext = &ifihead; 
32 lastname[0] = 0; 
33 sdlname = NULL; 


lib/get_ifi_info.c 
图 17-7 发 出 sIoccIFCONF 请 求 以 获取 接口 配置 


在 一 个 循环 中 发 出 srTOCGIFCONF 请 求 

13~29 ”SIOCGIFCONF 请 求 存在 的 一 个 严重 问题 是 ， 在 缓冲 区 的 大 小 不 足以 存放 结果 时 ， 一 些 
实现 不 返回 错误 ， 而 是 截断 结果 并 返回 成 功 〈 即 ioct1 的 返回 值 为 0)。 这 一 点 意味 着 
要 知道 缓冲 区 是 否 足 够 大 的 唯一 办 法 是 : 发 出 请 求 ， 记 下 返回 的 长 度 ， 用 更 大 的 缓冲 
区 发 出 请 求 ， 比 较 返 回 的 长 度 和 刚才 记 下 的 长 度 。 只 有 这 两 个 长 度 相 同 ， 我 们 的 缓冲 
KA REA. 


源 自 Berkeley 的 实现 在 缓冲 区 太 小 时 不 返回 错误 (TCPv2 第 118 ~ 1193] )， 结 果 被 截 成 适 
合 缓冲 区 的 可 用 大 小 。 与 此 相反 ，Solaris 2.5 在 返回 的 长 度 将 会 大 于 或 等 于 缓冲 区 的 长 度 时 返 
回 EINVAL 错 误 . 然而 即使 返回 的 长 度 小 于 缓冲 区 的 大 小 ， 我 们 也 不 能 肯定 确实 成 功 ， 因 为 源 
自 Berkeley 的 实现 在 剩 下 的 空间 装 不 下 另 一 个 结构 时 返回 的 长 度 也 小 于 缓冲 区 长 度 ， 

有 些 实现 中 提供 了 用 于 返回 接口 数目 的 名 为 SIOCGIFNUM 的 请 求 。 它 使 得 应 用 进程 能 够 
在 发 出 SIOCGIFCONF 请 求 之 前 分 配 一 个 足够 大 小 的 缓冲 区 ， 不 过 这 个 新 请 求 尚未 被 广泛 实现 。 

随 着 Web 的 增长 ， 为 STOCGIFCONF 请 求 返回 的 结果 预 分 配 一 个 固定 长 度 的 缓冲 区 这 一 做 
法 也 成 了 问题 ， 因 为 大 的 Web 服 务 器 主机 把 越 来 越 多 的 别名 地 址 赋予 单个 接口 。 举 例 来 说 ， 
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Solaris2.5 对 于 每 个 接口 可 赋予 别名 地 址 数 的 限制 为 236，Solaris 2.6 则 把 这 个 限制 增加 到 8192。 
使 用 大 量 别名 地 址 的 网 站 已 经 发 现 使 用 固定 大 小 缓冲 区 获取 接口 信息 的 程序 开始 工作 失常 。 
尽管 Solaris 在 缓冲 区 太 小 时 返回 错误 , 这 些 程序 只 是 分 配 国定 大 小 的 缓冲 区 , 发 出 ioct1 却 不 
处 理 可 能 返回 的 错误 ( 壁 如 重新 分 配 缓冲 区 再 次 发 出 ioctl )， 导 致 进程 可 能 意外 死亡 。 
13-16 ”动态 分 配 一 个 缓冲 区 ， 一 开始 为 100 个 ifreq 结 构 的 空间 。 在 lastlen 中 记录 最 近 一 次 
SIOCGIFCONF 请 求 返回 的 长 度 ， 其 初始 值 为 0。 
20-21 如 果 ioct1 调 用 返回 一 个 EINVRaL 错 误 ， 而 且 成 功 返回 的 ioct1 调 用 未 曾 发 出 过 〈 即 
lastlen 仍 为 0)， 那 么 我 们 刚才 分 配 的 缓冲 区 还 不 够 大 ， 于 是 继续 经 历 循 环 。 
23-24 如果 ioct1 调 用 返回 成 功 ， 而 且 返 回 的 长 度 等 于 lastlen， 那 么 与 上 次 ioctl 调 用 返回 
的 长 度 相 比 没有 变化 〈 表 明 刚 才 分 配 的 缓冲 区 已 足够 大 )， 于 是 break 出 循环 ， 因 为 我 
们 已 经 得 到 所 有 接口 配置 信息 。 
27-28 ”每 次 经 历 循环 时 ， 把 缓冲 区 的 大 小 增 至 能 额外 存放 10 个 ifreq 结 构 。 
初始 化 链表 指针 
30-33 ”既然 将 来 要 返回 指向 某 个 ifi_info 结 构 链表 之 头 结构 的 一 个 指针 , 我 们 于 是 使 用 两 个 


变量 ifihead 和 ifipnext 在 链表 构造 过 程 中 保存 指针 。 


zii get_ifi_info 函 数 的 第 二 部 分 是 主 循环 的 前 段 ， 如 图 17-8 所 示 。 
步 入 下 一 个 套 接 字 地 址 结构 


35-51 


在 遍历 所 有 ifreq 结 构 的 过 程 中 ，ifr 将 指向 每 个 结构 ， 我 们 随后 增长 ptr 以 指向 下 一 
个 结构 。 这 里 我 们 必须 既 处 理 为 套 接 字 地 址 结构 提供 长 度 字 段 的 较 新 系统 ， 又 处 理 不 
提供 这 个 长 度 的 较 老 系统 。 尽 管 图 17-2 中 的 声明 指出 ifreq 结 构 中 包含 的 套 接 字 地 址 
结构 是 一 个 道 用 套 接 字 地 址 结构 ， 在 较 新 的 系统 中 它 却 可 以 是 任何 类 型 的 套 接 字 地 址 
结构 。 事 实 上 4.4BSD 还 为 每 个 接口 返回 一 个 数据 链 路 套 接 字 地 址 结构 “TCPv2 第 118 
页 )。 因 此 如 果 长 度 成 员 受 支持 ， 我 们 就 必须 使 用 其 值 来 更 新 指向 下 一 个 套 接 字 地 址 
结构 的 指针 ptrz， 否 则 基于 地 址 族 使 用 一 个 长 度 ， 默 认为 通用 套 接 字 地 址 结构 的 大 小 
(16 字 节 )。 
我 们 为 支持 IPv6 的 较 新 系统 增添 一 个 case 语 名 只 是 以 防 万 一 。 问 题 在 于 ifreq 结 构 中 的 
那个 联合 把 返回 地 址 定义 为 通用 的 16 字 节 sockaddr 结 构 ， 它 对 于 JIPv4 的 16 字 节 
sockaddqr_in 结 构 是 够 了 ， 对 于 IPv6 的 24 字 节 sockaddr_in6 结 构 却 太 小 。 尽 管 在 为 
sockaddr 结 构 提 供 长 度 字段 (sa len) 的 较 新 系统 中 可 以 使 用 其 值 来 解决 本 问题 ， 然 而 返 
回 IPv6 地 址 仍 有 可 能 破坏 认为 ifreq 结 构 中 的 sockadqdr 结 构 长 度 固定 不 变 的 现 有 代码 .。 


处 理 AF_LINK 


52~60 


62~63 


如 果 系 统 支 持 在 STOCGIFCONF 中 返回 AF_LINK 地 址 族 的 sockagdr 结 构 ， 我 们 就 从 中 复 
制 接口 索引 和 硬件 地 址 信息 。 
忽略 所 有 不 是 调用 者 期 望 的 地 址 族 的 地 址 。 


处 理 别 名 地 址 


64~72 


我 们 必须 检测 当前 接口 可 能 存在 的 任何 别名 地 址 〈 即 赋予 该 接口 的 额外 地 址 )。 注 意 
Solaris 用 于 别名 地 址 的 接口 名 字 中 含有 一 个 冒号 ，4.4BSD 却 不 在 接口 名 字 上 区 分 别名 
地 址 和 主 地 址 。 为 了 处 理 这 两 种 情况 ， 我 们 把 最 近 处 理 过 的 接口 名 字 存 入 lastname， 
并 且 在 与 当前 接 只 名 字 比 较 时 ， 若 有 冒号 则 只 比较 到 冒号 。 不 论 是 否 有 冒号 ， 如 果 比 
较 结果 为 相同 ， 我 们 就 忽略 当前 接口 。 


17.6 get ifi info 函数 


375 








lib/get ifi info.c 


34 for (ptr = buf; ptr < buf + ifc.ifc len; ) ( 
35 ifr - (struct ifreq *) ptr; 
36 #ifdef HAVE SOCKADDR. SA LEN 
37 len = max(sizeof(struct sockaddr), ifr-»ifr addr.sa len); 
38 #telse 
39 switch (ifr-»ifr addr.sa family) ( 
40 #ifdef IPV6 
41 case AF_INET6: 
42 len = sizeof(struct sockaddr in6); 
43 break; 
44 Wendif 
45 case AF INET: 
46 default: 
47 len - sizeof(struct sockaddr); 
48 break; 
49 ) 
50 &endif  /* HAVE SOCKADDR SA LEN */ 
51 ptr += sizeof(ifr-»-ifr name) + len; /* for next one in buffer */ 
52 #ifdef HAVE SOCKADDR DL STRUCT 
53 /* assumes that AF LINK precedes AF INET or AF INET6 */ 
54 if (ifr-»ifr addr.sa family == AF LINK) ( 
55 struct sockaddr dl *sdl = (struct sockaddr dl *)&ifr-»ifr addr; 
56 sdlname - ifr-»ifr name; 
57 idx = sdl-»sdl index; 
58 haddr = sdl-»sdl data + sdl-»sdl nlen; 
59 hlen = sdl->sdl_alen; 
60 ) 
61 #endif 
62 if (ifr->ifr_addr.sa_family != family) 
63 continue; /* ignore if not desired address family */ 
64 myflags = 0; 
65 if ( (cptr = strchr(ifr-»ifr name, ':')) != NULL) 
66 *cptr - 0; /* replace colon with null */ 
67 if (strncmp(lastname, ifr-»ifr name, IFNAMSIZ) == 0) ( 
68 if (doaliases -- 0) 
69 continue; /* already processed this interface */ 
70 myflags - IFI, ALIAS; 
71 ) 
72 memcpy (lastname, ifr-»ifr name, IFNAMSIZ); 
73 ifrcopy - *ifr; 
74 Ioctl(sockfd, SIOCGIFFLAGS, &ifrcopy); 
75 flags - ifrcopy.ifr, flags; 
76 if ((flags & IFF UP) == 0) 
77 continue; /* ignore if interface not up */ 
图 17-8 处理 接 口 配置 
获取 接口 标志 


lib/get ifi info.c 


73-77 ”我 们 发 出 一 个 ioct1 的 sSTocGIFFLaGS 请 求 (17.577) 以 获取 接口 标志 。ioct1 的 第 三 
个 参数 是 指向 某 个 ifreg 结 构 的 一 个 指针 ， 该 结构 中 必须 包含 要 获取 其 标志 的 接口 的 
名 字 。 该 结构 是 我 们 在 调用 ioct1 之 前 从 当前 ifrea 结 构 复 制 成 的 , 因为 如 果 不 这 么 做 ， 
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1 
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ioct1 调 用 将 著 写 当前 ifreG 结 构 中 已 有 的 耳 地 址 ， 因 为 接口 标志 和 了 P 地 址 在 ifrea 结 
构 中 是 同一 个 联合 的 不 同 成 员 ， 如 图 17-2 所 示 。 如 果 当 前 接口 不 处 于 在 工 状态 ， 我 们 
就 忽略 它 。 


图 17-9 给 出 get_ifi_info 函 数 的 第 三 部 分 。 





- lib/get ifi info.c 
ifi = Calloc(1, sizeof(struct ifi info)); 

*ifipnext - ifi; /* prev points to this new one */ 

ifipnext = &ifi-»ifi next; /* pointer to next one goes here */ 


ifi-»ifi flags = flags; /* IFF, xxx values */ 
ifi-»ifi myflags - myflags; /* IFI xxx values */ 


83 #if defined(SIOCGIFMTU) && defined(HAVE STRUCT IFREQ IFR, MTU) 


B6 #else 


88 #endif 





Ioctl(sockfd, SIOCGIFMTU, &ifrcopy); 
ifi-»ifi mtu - ifrcopy.ifr mtu; 


ifi-»ifi mtu - 0; 


memcpy (ifi->ifi_name, ifr-»ifr name, IFI NAME); 


ifi-»ifi name[IFI, NAME-1] = 'X0'; 
/* If the sockaddr dl is from a different interface, ignore it */ 
if (sdlname -- NULL || strcmp(sdlname, ifr-»ifr name) !- 0) 


idx = hlen = 0; 
ifi-»ifi index = idx; 
ifi-»ifi hlen - hlen; 
if (ifi-»ifi hlen > IFI HADDR) 
ifi-»ifi hlen - IFI HADDR; 
if (hlen) 
memcpy (ifi->ifi_haddr, haddr, ifi-»ifi hlen); 
lib/get ifi info.c 





图 17-9 分 配 并 初始 化 ifi_info 结 构 


分 配 并 初始 化 1fi_info 结 构 
78-99 ”人 至 此 我 们 知道 将 向 调用 者 返回 当前 接口 。 我 们 动态 分 配 一 个 ifi_info 结 构 ， 并 把 它 
加 到 正在 构造 中 的 链表 的 末尾 。 我们 把 接口 的 标志 、MTU 和 名 字 复 制 到 这 个 结构 中 。 
我 们 确保 接口 的 名 字 总 是 以 空 字符 结尾 ， 而 且 既 然 calloc 已 把 所 分 配 区 域 全 部 初始 
化 为 0， 我 们 知道 ifi_next 也 已 被 初始 化 为 空 指针 。 我 们 复制 保存 的 接口 索引 和 硬 
件 地 址 长 度 ， 车 该 长 度 不 为 0 则 同时 复制 保存 的 硬件 地 址 。 
图 17-10 给 出 get_ifi_info 函 数 的 最 后 一 部 分 。 
102-104 ”把 由 最 初 的 SIOCGIFCONF 请 求 返 回 的 IP 地 址 复制 到 我 们 正在 构造 的 结构 中 。 
106-119 如果 当前 接口 支持 广播 ， 我们 就 用 ioct1 的 sSITOCGIFBRDADDR 请 求 取得 它 的 广播 地 


址 。 


我 们 动态 分 配 一 个 套 接 字 地 址 结构 以 存放 该 地 址 ， 并 把 它 加 到 正在 构造 的 


ifi_info 结 构 中 。 类 似 地 ， 如 果 当 前 接口 是 一 个 点 到 点 接口 ， 我 们 就 用 ioct1 的 
SIOCGIFDSTADDR 请 求 取得 它 的 链 路 对 端 IP 地 址 。 
123-133 ”这 是 IPv6 的 情形 ， 这 段 代 码 与 IPv4 情 形 的 类 似 ， 不 过 没有 sIOCGIFBRDADDR， 因 为 
IPv6 不 支持 广播 。 
图 17-11 给 出 的 是 free_ifi_info 函 数 , 它 以 由 某 个 get_ifi_info 调 用 返回 的 指针 为 参数 ， 
释放 先前 为 这 个 调用 动态 分 配 的 所 有 内 存 空间 。 


17.6 get ifi info 函数 377 





lib/get ifi info.c 
switch (ifr-»ifr addr.sa family) ( 
case AF INET: 
sinptr = (struct sockaddr in *) &ifr-»ifr addr; 
ifi->ifi_addr = Calloc(1, sizeof(struct sockaddr in)); 
memcpy(ifi-»ifi addr, sinptr, sizeof(struct sockaddr_in)); 


#ifdef SIOCGIFBRDADDR 
if (flags & IFF. BROADCAST) { 
Ioctl(sockfd, SIOCGIFBRDADDR, &ifrcopy); 
sinptr - (struct sockaddr in *) &ifrcopy.ifr broadaddr; 
ifi->ifi_brdaddr = Calloc(1, sizeof(struct sockaddr in)); 
memcpy(ifi-»ifi brdaddr, sinptr,sizeof(struct sockaddr in)); 


fendif 


#ifdef SIOCGIFDSTADDR 
if (flags & IFF_POINTOPOINT) { 
Ioctl(sockfd, SIOCGIFDSTADDR, &ifrcopy) ; 
sinptr = (struct sockaddr_in *) &ifrcopy.ifr_dstaddr; 
ifi->ifi_dstaddr = Calloc(1, sizeof(struct sockaddr, in)); 
memcpy (ifi->ifi_dstaddr, sinptr, izeof(struct sockaddr in)); 
) 
#tendif 
break; 


case AF_INET6: 
sin6ptr = (struct sockaddr in6 *) &ifr-»ifr addr; 
ifi->ifi_addr = Calloc(1, sizeof(struct sockaddr in6)); 
memcpy (ifi->ifi_addr, sin6ptr, sizeof(struct sockaddr in6)); 


#ifdef SIOCGIFDSTADDR 
if (flags & IFF POINTOPOINT) ( 
Ioctl(sockfd, SIOCGIFDSTADDR, &ifrcopy); 
sin6ptr - (struct sockaddr in6 *) &ifrcopy.ifr dstaddr; 
ifi->ifi_dstaddr = Calloc(1, sizeof(struct sockaddr in6)); 
memcpy (ifi->ifi_dstaddr, sin6ptr, 
sizeof (struct sockaddr in6)); 
} 
#endif 
break; 


default: 
break; 
) 
) 
free (buf) ; 
return (ifihead) ; /* pointer to first structure in linked list */ 


lib/get_ifi_info.c 


17-10 ”获取 并 返回 接口 地 址 
lib/get ifi info.c 
void 
free ifi info(struct ifi info *ifihead) 
{ 
struct ifi_info *ifi, *ifinext; 


for (ifi = ifihead; ifi != NULL; ifi = ifinext) { 
if (ifi->ifi_addr != NULL) 
free (ifi->ifi_addr); 
if (ifi->ifi_brdaddr != NULL) 
free (ifi->ifi_brdaddr) ; 
if (ifi->ifi_dstaddr != NULL) 
free (ifi->ifi_dstaddr) ; 
ifinext = ifi->ifi_next; /* can't fetch ifi_next after free() */ 
free(ifi); /* the ifi info() itself */ 


LLL SÉ uut M ING 
17-11 free_ifi_info 函 数 ， 释放 由 get_ifi_info 动 态 分 配 的 内 存 空间 
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177 接口 操作 
我 们 已 在 上 一 节 展 示 过 ，SIOCGIFCONF 请 求 为 每 个 已 配置 的 接口 返回 其 名 字 以 及 一 个 套 接 
字 地 址 结构 。 我 们 接着 可 以 发 出 多 个 接口 类 其 他 请 求 以 设置 或 获取 每 个 接口 的 其 他 特征 。 这 些 
请 求 的 获取 (get) 版 本 CSrocGxe 通常 由 netstat 程 序 发 出 ， 设 置 (set) 版 本 (srocsxx) 
通常 由 ifconfig 程 序 发 出 。 任 何 用 户 都 可 以 获取 接口 信息 ， 设 置 接 口 信息 却 要 求 具备 超级 用 户 
权限 。 
这 些 请 求 接受 或 返回 一 个 ifreq 结 构 中 的 信息 , 而 这 个 结构 的 地 址 则 作为 ioct1 调 用 的 第 三 
个 参数 指定 。 接口 总 是 以 其 名 字 标 识 , 在 ifreqa 结 构 的 ifr_name 成 员 中 指定 , 如 1e0、100、ppp0 
等 。 
这 些 请 求 中 有 许多 使 用 套 接 字 地 址 结构 在 应 用 进程 和 内 核 之 间 指 定 或 返回 具体 接口 的 IP 地 
址 或 地 址 掩 码 。 对 于 IPv4， 这 个 地 址 或 掩 码 存放 在 一 个 网 际 网 套 接 字 地 址 结构 的 sin_adar 成 员 
中 ; 对 于 IPv6， 它 是 一 个 IPv6 套 接 字 地 址 结构 的 sin6_adar 成 员 。 
SIOCGIFADDR 在 ifr_adadqr 成 员 中 返回 单 播 地 址 。 
SIOCSIFADDR 用 ifr_addar 成 员 设置 接口 地 址 。 这 个 接口 的 初始 化 函数 也 被 调用 。 
SIOCGIFFLAGS 在 ifr_flags 成 员 中 返回 接口 标志 。 这 些 标志 的 名 字 格 式 为 IFF_xxx， 
在 <net /if.h> 头 文件 中 定义 。 举 例 来 说 ， 这 些 标志 指示 接口 是 否 处 于 
在 工 状态 (IFF_UP)， 是 否 为 一 个 点 到 点 接口 (IFF_POINTOPOINT)， 
是 否 支持 广播 (IFF_BROADCAST)， 等 等 。 
SIOCSIFFLAGS 用 ifr_flags 成 员 设 置 接口 标志 。 
SIOCGIFDSTADDR ”在 ifr_dstaddr 成 员 中 返回 点 到 点 地 址 。 
SIOCSIFDSTADDR ”用 ifr_dstadgr 成 员 设 置 点 到 点 地 址 。 
SIOCGIFBRDADDR ”在 ifr_broadaddr 成 员 中 返回 广播 地 址 。 应 用 进程 必须 首先 获取 接口 
标志 ， 然 后 发 出 正确 的 请 求 : 对 于 广播 接口 为 SIOCGIFBRDADDR， 对 于 
点 到 点 接口 为 SIOCGIFDSTADDR。 
SIOCSIFBRDADDR ”用 ifr_broadadqdr 成 员 设 置 广播 地 址 。 
SIOCGIFNETMASK ”在 ifr_addr 成 员 中 返回 子 网 掩 码 。 
SIOCSIFNETMASK 用 ifr_addr 成 员 设置 子 网 掩 码 。 
SIOCGIFMETRIC ”用 ifr_metric 成 员 返 回 接口 测度 。 接 口 测 度 由 内 核 为 每 个 接口 维护 ， 
不 过 使 用 它 的 是 路 由 守护 进程 routed。 接 口 测度 被 routed 加 到 跳 数 上 
(使 得 某 个 接口 更 不 被 看 好 )。 
SIOCSIFMETRIC ”用 ifr_metric 成 员 设置 接口 的 路 由 测度 。 
本 节 讲 述 的 是 通用 的 接口 请 求 。 许 多 实现 中 都 加 入 了 其 他 的 请 求 。 


Te ee er HN PI IODC th So NY LUN BET n bi 


ARP 高 速 缓存 也 通过 ioct1 函 数 操纵 。 使 用 路 由 域 套 接 字 【第 18 章 ) 的 系统 往往 改 用 路 由 
套 接 字 访问 ARP 高 速 缓存 。 这 些 请 求 使 用 一 个 如 图 17-12 所 示 的 arpreg 结 构 ， 它 定义 在 头 文件 
<net/if_arp.h> 中 。 
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<net/f arp.h> 
struct arpreq { 
struct sockaddr arp_pa; /* protocol address */ 
struct sockaddr arp ha; /* hardware address */ 
int arp flags; /* flags */ 
); 
define  ATF INUSE 0x01 /* entry in use */ 
define  ATF COM 0x02 /* completed entry (hardware addr valid) */ 
fdefine  ATF PERM 0x04 /* permanent entry */ 
#define  ATF PUBL 0x08 /* published entry (respond for other host) */ 
<net/f_arp.h> 


图 17-12 ARP 高 速 缓存 类 ioct1 请 求 所 用 的 arprea 结 构 
ioct1 的 第 三 个 参数 必须 指向 某 个 arprea 结 构 。 操 纵 ARP 高 速 缓存 的 joct1 请 求 有 以 下 3 个 。 
SIOCSARP ”把 一 个 新 的 表 项 加 到 ARP 高 速 缓存 , 或 者 修改 其 中 已 经 存在 的 一 个 表 项 。 其 中 
arp_pa 是 一 个 含有 了 地 址 的 网 际 网 套 接 字 地 址 结构 ，arp_ha 则 是 一 个 通用 套 
接 字 地 址 结构 , 它 的 sa_family 值 为 AF_UNSPEC，sa_data 中 含有 硬件 地 址 ( 例 
如 6 字 节 的 以 太 网 地 址 )。ATF_PERM 和 ATF_PUBL 这 两 个 标志 也 可 以 由 应 用 程序 
指定 。 另 外 两 个 标志 (ATF_INUSE 和 ATF_CoM)〉 则 由 内 核 设 置 。 
SIOCDARP ”从 ARP 高 速 缓存 中 删除 一 个 表 项 。 调 用 者 指定 要 删除 表 项 的 网 际 网 地 址 。 
SIOCGARP ”从 ARP 高 速 绥 存 中 获取 一 个 表 项 。 调 用 者 指定 网 际 网 地 址 , 相应 的 硬件 地 址 ( 例 
如 以 太 网 地 址 〉 随 标志 一 起 返回 。 
只 有 超级 用 户 才 能 增加 或 删除 表 项 。 这 3 个 请 求 通常 由 arp 程 序 发 出 。 
一 些 较 新 的 系统 不 支持 这 些 与 ARP 相 关 的 ioct1 请 求 ， 而 改 用 路 由 套 接 字 执行 这 些 ARP 
Bu. 
注意 iockt1 没 有 办 法 列 出 ARP 高 速 缓存 中 的 所 有 表 项 。 当 指定 -a 标 志 〈 列 出 ARP 高 速 缓存 
中 的 所 有 表 项 ) 执行 arp 命 令 时 ， 大 多 数 版 本 的 arp 程 序 通过 读 取 内 核 的 内 存 〈/aev/kmem) 获 
得 ARP 高 速 缓存 的 当前 内 容 。 我 们 将 在 18.4 节 讨论 一 个 使 用 sysct1 做 到 这 一 点 的 更 简单 〈 且 更 
好 ) 的 方法 ， 不 过 这 个 方法 并 非 所 有 系统 上 都 可 用 。 


例子 : 输出 主机 的 硬件 地 址 


现在 使 用 我 们 的 get_ifi_info 函 数 返回 一 个 主机 的 所 有 IP 地 址 , 然后 对 每 个 IP 地 址 发 出 一 
个 sIocGARP 请 求 以 获取 并 显示 它 的 硬件 地 址 。 程 序 如 图 17-13 所 示 。 
获取 地 址 列表 并 遍历 每 个 地 址 
12 调用 get_ifi_info 获 取 本 主机 所 有 IP 地 址 ， 然 后 在 一 个 循环 中 遍历 每 个 地 址 。 
输出 IP 地 址 
13 ”使 用 inet_ntop 显 示 IP 地 址 。 我 们 要 求 get_ifi_info 仅 仅 返 回 IPv4 地 址 ， 因 为 IPv6 不 
使 用 ARP。 
发 出 ioct1 请 求 并 检查 错误 
14~19 “作为 一 个 IPv4 套 接 字 地 址 结构 在 arp_pa 中 填 入 IPv4 地 址 。 调 用 ioct1, 若 返 回 错误 CR 
如 说 所 提供 的 地 址 不 在 支持 ARP 的 某 个 接口 上 ) 则 显示 相应 错误 消息 ， 并 继续 处 理 下 
一 个 地 址 。 
输出 硬件 地 址 
20-22 ”显示 由 ioct1 调 用 返回 的 硬件 地 址 。 


N 
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ioctl/prmac.c 
1 #include "unpifi.h" 
2 #include «net/if arp.h» 


3 int 

4 main(int argc, char **argv) 

5 { 

6 int sockfd; 

7 struct ifi_info *ifi; 

8 unsigned char *ptr; 

9 struct arpreg arpreq; 

10 struct sockaddr in *sin; 

11 Sockfd - Socket(AF INET, SOCK DGRAM, 0); 

12 for (ifi = get ifi info(AF INET, 0); ifi !- NULL; ifi ifi-»ifi next) ( 
13 printf("$s: ", Sock_ntop(ifi->ifi_addr, sizeof(struct sockaddr in))); 
14 sin - (struct sockaddr in *) &arpreq.arp pa; 

15 memcpy (sin, ifi-»ifi addr, sizeof(struct sockaddr in)); 
16 if (ioctl(sockfd, SIOCGARP, &arpreq) < 0) { 

17 err ret("ioctl SIOCGARP"); 

18 continue; 

19 ) 

20 ptr = &arpreq.arp ha.sa data[0]; 

21 printf("9x:$x:98x:$x:9x:$xWMn", *ptr, *(ptr«1), 

22 *(ptr«2), *(ptr«3), *(ptr«4), *(ptr+5)); 

23 } 

24 exit (0); 


25 } 
` -=m — — —— ioctl/prmac.c 


图 17-13 输出 一 个 主机 的 硬件 地 址 
在 我 们 的 hpux 主 机 上 运行 本 程序 得 到 如 下 结果 ; 


hpux $ prmac 

192.6.38.100: 0:60:b0:c2:68:9b 
192.168.1.1: 0:60:b0:b2:28:2b 

127.0.0.1: ioctl SIOCGARP: Invalid argument 


17.9 ”路 由 表 操 作 

有 些 系统 提供 2 个 用 于 操纵 路 由 表 的 ioct1 请 求 。 这 2 个 请 求 要 求 ioct1 的 第 三 个 参数 是 指向 
某 个 rtentry 结 构 的 一 个 指针 , 该 结构 定义 在 <net /route.h> 头 文件 中 。 这 些 请 求 通常 由 route 
程序 发 出 。 只 有 超级 用 户 才能 发 出 这 些 请 求 。 在 支持 路 由 域 套 接 字 (第 18 章 ) 的 系统 中 ， 这 些 
请 求 改 由 路 由 套 接 字 而 不 是 ioct1 执 行 。 

SIOCADDRT ” 往 路 由 表 中 增加 一 个 表 项 。 

SIOCDELRT ”从 路 由 表 中 删除 一 个 表 项 。 

ioct1 没 有 办 法 列 出 路 由 表 中 的 所 有 表 项 。 这 个 操作 通常 由 netstat 程 序 在 指定 -r 标 志 执 


行 时 完成 。net stat 程 序 通 过 读 取 内 核 的 内 存 (/dev/kmem) 获得 整个 路 由 表 。 与 ARP 高 速 缓存 
的 列 示 一 样 ， 我 们 将 在 18.4 节 讨论 一 个 使 用 sysct1 做 到 这 一 点 的 更 简单 〈 且 更 好 ) 的 方法 。 











用 于 网 络 编程 的 joct1 命 令 可 划分 为 6 类 : 

o ERTE (是 否 位 于 带 外 标记 等 ); 

e 文件 操作 设置 或 清除 非 阻塞 标志 等 ); 

e 接口 操作 (返回 接口 列表 ， 获 取 广播 地 址 等 ); 

e ARP 表 操作 (创建 、 修 改 、 获 取 或 删除 ); 

e 路 由 表 操 作 ( 增 加 或 删除 ); 

e 流 系 统 〈 第 31 章 )。 

我 们 将 使 用 其 中 的 套 接 字 操 作 和 文件 操作 ， 而 接口 列表 的 获取 是 一 个 相当 常用 的 操作 ， 我 


们 为 此 开发 了 一 个 完成 本 操作 的 函数 。 在 本 书 以 后 章节 我 们 会 数 次 使 用 这 个 函数 。 只 有 若干 个 
特殊 用 途 的 程序 使 用 ioct1 的 ARP 高 速 缓冲 操作 和 路 由 表 操 作 。 


17.1 


17.2 


17.3 


17.4 





在 17.7 节 我 们 说 过 ， 由 SIOcGIFBRDaADDR 请 求 返回 的 广播 地 址 是 通过 ifreG 结 构 的 ifr_broadaddr 
成 员 返 回 的 。 然 而 查看 TCPv2 第 173 页 ， 我 们 注意 到 它 是 在 ifr_dastadGar 成 员 中 返回 的 。 这 里 有 问 
题 吗 ? 

修改 get_ifi_info 函 数 , 当 发 出 第 一 个 siIocGIFCONF 请 求 时 指定 缓冲 区 的 大 小 (由 ifconf 结 构 的 
ifc_len 成 员 指定 ) 为 只 能 容纳 1 个 ifreqg 结 构 , 以 后 每 回 循环 时 指定 缓冲 区 的 大 小 为 新 增 1 个 ifreG 
结构 的 容量 。 然 后 在 循环 体 中 增加 一 些 语 句 ， 以 显示 每 回 发 出 请 求 时 指定 的 缓冲 区 大 小 以 及 ioct1l 
是 否 返 回 错误 ， 若 成 功 返 回 则 显示 返回 的 缓冲 区 长 度 。 运 行 prifinfo 程 序 ， 查 看 你 自己 的 系统 在 
缓冲 区 太 小 时 如 何 处 理 这 样 的 请 求 。 对 于 由 ioct1 返 回 的 其 地 址 族 并 非 所 期 望 值 的 任何 套 接 字 地 址 
结构 ， 也 显示 其 地 址 族 值 ， 以 便 了 解 你 的 系统 返回 了 哪些 其 他 结构 。 

修改 get_ifi_info 函 数 ， 如 果 某 个 接口 存在 别名 地 址 ， 而 且 当 前 正 处 理 的 别名 地 址 与 该 接口 最 近 
处 理 的 地 址 〈 主 地 址 或 另 一 个 别名 地 址 ) 不 在 同一 个 子 网 上 , 那么 也 返回 关于 当前 别名 地 址 的 信息 。 
那么 17.6 节 中 的 版 本 忽略 从 206.62.226.44 到 206.62.226.46 的 别名 地 址 是 可 以 接受 的 , 因为 它们 都 处 于 
主 地 址 所 在 的 子 网 。 然 而 如 果 该 接口 又 一 个 别名 地 址 〈 辟 如 192.3.4.5) 不 在 同一 个 子 网 ， 那 么 修改 
后 的 版 本 应 该 也 为 该 别名 地 址 返回 一 个 1fi_info 结 构 。 

如 果 你 的 系统 支持 SIOCGIFNUM ioct1， 那 就 修改 图 17-7， 先 发 出 这 个 请 求 ， 再 以 其 返回 值 作为 最 
初 猜测 的 缓冲 区 大 小 。 
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18.2 数据 链 路 套 接 字 地 址 结构 


路 由 套 接 字 
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内 核 中 的 Unix 路 由 表 传统 上 一 直 使 用 ioct1 命 令 访问 。 我 们 在 17.9 节 讲解 了 用 于 增加 或 删除 
路 径 的 2 个 ioct1 请 求 :sIOCADDRT 和 sIOCDELRT。 我 们 还 提 到 没有 ioct1 命 令 可 以 倾泻 出 整个 
路 由 表 ， 相 反 ， 诸 如 netstat 等 程序 通过 读 取 内 核 的 内 存 获取 路 由 表 的 内 容 。 使 得 问题 更 为 复 
杂 的 再 一 点 是 ， 诸 如 gated 等 路 由 守护 进程 需要 监视 由 内 核 收取 的 ICMP 重 定向 消息 ， 它 们 通常 
创建 一 个 原始 ICMP 套 接 字 (第 28 章 )， 青 在 这 个 套 接 字 上 上 监听 所 有 收 到 的 ICMP 消 息 。 

4.3BSD Reno 通 过 创建 aF_ROUTE 域 对 访问 内 核 中 路 由 子 系统 的 接口 做 了 清理 。 在 路 由 域 中 
支持 的 唯一 一 种 套 接 字 是 原始 套 接 字 。 路 由 套 接 字 上 支持 3 种 类 型 的 操作 。 

(1) 进程 可 以 通过 写 出 到 路 由 套 接 字 而 往 内 核发 送 消息 。 路径 的 增加 和 删除 采用 这 种 操作 实 
现 。 

(2) 进程 可 以 通过 从 路 由 套 接 字 读 入 而 自 内 核 接收 消息 。 内 核 采用 这 种 操作 通知 进程 已 收 到 
并 处 理 一 个 ICMP 重 定向 消息 ， 或 者 请 求 外 部 路 由 进程 解析 一 个 路 径 。 

以 上 两 种 操作 可 以 复合 使 用 。 举例 来 说 , 进程 通过 写 一 个 路 由 套 接 字 往 内 核发 送 一 个 消息 ， 
请 求 内 核 提供 关于 某 个 给 定 路 径 的 所 有 信息 ， 又 通过 读 这 个 路 由 套 接 字 接 收 内 核 的 应 答 。 

(3) 进程 可 以 使 用 sysct1 函 数 〈18.4 节 ) 倾泻 出 路 由 表 或 列 出 所 有 已 配置 的 接口 。 

前 两 种 操作 需要 超级 用 户 权 限 ， 最 后 一 种 操作 任何 进程 都 可 以 执行 。 





一 些 较 新 的 操作 系统 版 本 取消 了 打开 路 由 套 接 字 的 超级 用 户 权 限 要 求 ， 转 而 仅仅 限制 改 
动 路 由 表 的 消息 需要 超级 用 户 权限 才能 访问 。 这 样 任何 进程 无 需 成 为 超级 用 户 就 可 以 使 用 诸 
如 RTM_GET 之 类 的 消息 来 查找 路 径 。 

从 技术 上 说 ， 第 3 种 操作 并 非 使 用 路 由 套 接 字 执 行 ， 而 是 涉及 通用 的 sysct1 函 数 。 然 而 
我 们 将 会 看 到 ，sysct1 的 输入 参数 之 一 是 地 址 族 。 对 于 本 章 讲解 的 第 3 种 操作 来 说 ， 这 个 参 
数 为 ARF_ROUTE， 而 且 sysct1 返 回 的 信息 与 内 核 通过 路 由 套 接 字 返回 的 信息 有 相同 的 格式 。 
实际 上 在 4.4BSD 内 核 中 ，sysct1 对 AF_ ROUTE 地 址 族 的 处 理 是 路 由 套 接 字 代码 的 一 部 分 
(TCPv2 第 632 ~ 643 页 ). 

sySsct1 工 具 首先 出 现在 4.4BSD 中 。 不 幸 的 是 ， 并 非 所 有 支持 路 由 套 接 字 的 实现 都 提供 
sysctl。 举 例 来 说 ，AIX 5.1 和 Solaris 9 都 支持 路 由 套 接 字 ， 然 而 两 者 都 不 支持 sysct1，。 


ume 








通过 路 由 套 接 字 返回 的 一 些 消 息 中 含有 作为 返回 值 给 出 的 数据 链 路 套 接 字 地 址 结构 。 
18-1 给 出 了 这 个 结构 ， 它 定义 在 <net/if_dl .h> 头 文件 中 。 
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struct sockaddr dl ( 


uint8 t sdl len; 

sa family t sdl, family; /* AF LINK */ 

uintl6 t sdl index; /* system assigned index, if » 0 */ 

uint8 t sdl type; /* IFT ETHER, ect. from «net/if types.h» */ 
uint8 t sdl nlen; /* name length, starting in sdl data[0] */ 
uint8 t sdl, alen; /* link-layer address length */ 

uint8 t sdl, slen; /* link-layer selector length */ 

char sdl data[12]; /* minimum work area, can be larger; 


contains i/f name and link-layer address */ 


图 18-1 数据 链 路 套 接 字 地 址 结构 


每 个 接口 都 有 一 个 唯一 的 正 值 索引 , 返回 索引 的 手段 有 : 本 章 靠 后 讲解 的 1f_nametoindex 
和 if_nameinaex 函 数 ， 第 21 章 中 讲解 的 IPv6 多 播 套 接 字 选项 ， 第 27 章 中 讲解 的 一 些 IPv4 和 IPv6 
高 级 套 接 字 选 项 。 

sql_data 成 员 含 有 名 字 和 链 路 层 地 址 〈 例 如 以 太 网 接口 的 48 位 MAC 地 址 )。 名 字 从 
sdl_daata[0] 开 始 ， 而 且 不 以 空 字符 结尾 。 链 路 层 地 址 从 sdal_daata[sdl_nlenl 开 始 。 定 义 本 
结构 的 头 文件 定义 了 以 下 这 个 宏 以 返回 指向 链 路 层 地 址 的 指针 。 

#define LLADDR(s) ((caddr t)((s)-»sdl data + (s)-»sdl nlen)) 

数据 链 路 套 接 字 地 址 结构 是 可 变 长 度 的 (TCPv2 第 89 页 )。 如 果 链 路 层 地 址 和 名 字 总 长 超出 
12 字 节 ， 结 构 将 大 于 20 字 节 。 在 32 位 系统 上 ， 这 个 大 小 通常 向 上 舍 入 到 下 一 个 4 字 节 的 倍数 。 我 
们 还 将 在 图 22-3 中 看 到 ， 由 IP_RECVIF 套 接 字 选项 返回 的 本 结构 中 ， 所 有 3 个 长 度 成 员 都 为 0， 
从 而 根本 没有 sal_data 成 员 。 


TE sag 


创建 一 个 路 由 套 接 字 后 ， 进 程 可 以 通过 写 到 该 套 接 字 向 内 核发 送 命令 ， 通 过 读 自 该 套 接 字 
从 内 核 接 收 信息 。 路 由 域 套 接 字 共有 12 个 路 由 消息 ， 其 中 5 个 可 以 由 进程 发 出 。” 这 些 消息 定义 
在 <net/zoute.h> 头 文件 中 ， 如 图 18-2 所 示 。 


EOE 
增加 路 径 rt msghdr 
rt msghdr 


改动 网 关 、 测 度 或 标志 


— ————————————— € 







































地 址 正 被 删 离 接 口 ifa msghdr 

删除 路 径 rt msghdr 

多 播 地 址 正 被 删 离 接口 ifma msghdr 

报告 测度 及 其 他 路 径 信息 rt msghdr 
接口 正 被 增 至 或 删 离 系统 if announcemsghdr 
接口 正在 开工 、 停 工 等 if msghdr 


锁 住 给 定 的 测度 
图 18-2 ”通过 路 由 套 接 字 交 换 的 消息 类 型 


rt msghdr 





QD 第 3 版 原文 仅仅 在 图 18-2 中 新 增 了 RrM_DELMApDpR( 多 搬 地 址 正 被 删 离 接口 )、RTM_IFANNOUNCE〈 接 口 正 被 增 至 或 
删 离 系统 )、RmM_NEWMADDR (接口 正在 加 入 多 播 地 址 ) 3 个 路 由 消息 ， 既 没有 更 新 正文 《仍然 说 共有 12 个 路 由 消 
SO, 也 没有 任何 解释 (包括 在 其 他 章节 中 )。 这 种 不 一 致 现象 表现 在 新 作者 只 替换 Stevens 先 生 在 第 2 版 给 出 的 图 
表 、 程 序 代码 和 程序 运行 例子 ， 而 很 少 甚至 根本 不 在 正文 、 习 题 和 习题 答案 中 做 相应 的 调整 ， 个 别 程序 运行 例 
子 其 至 有 算 改 嫌疑 ， 而 不 是 直接 取 自 程序 运行 结果 不 排除 排版 差错 )。 对 于 第 3 版 原文 中 存在 的 这 些 问题 ， 译 
者 已 尽 可 能 地 予以 订正 。 一 一 译 者 注 


a 
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RTM_LOSING 
RIM_MISS 


























内 核 怀疑 路 径 即 将 失效 。 
地 址 查找 失败 


rt_msghGr 
rt msghár 








RTM, NEWADDR 地 址 正 被 增 至 接口 ifa msghdr 
RTM NEWMADDR 多 播 地 址 正 被 增 至 接口 ifma msghdr 
RTM_REDIRECT 内 核 被 告知 使 用 另外 的 路 径 rt_msghdr 
RTM_RESOLVE 请 求 把 日 的 地 址 解析 成 链 路 层 地 址 | rt_msghdr 


图 18-2( 续 》 
通过 路 由 套 接 字 交换 的 结构 有 5 个 类 型 ， 如 图 中 最 后 一 列 所 示 : rt msghdr. if msghár. 


ifa_msghdr、ifma_msgh9r 和 if_announcemsghGr， 具 体 的 定义 如 图 18-3 所 示 。 


struct rc msghdr { /* from «net/route.h» */ 
u short rtm msglen; /* to skip over non-understood messages */ 
u, char rtm version; /* future binary compatibility */ 
u char rtm type; /* message type */ 
u short rtm index; /* index for associated ifp */ 
int rtm flags; /* flags, incl. kern & message, e.g., DONE */ 
int rtm addrs; /* bitmask identifying sockaddrs in msg */ 
pid t rtm pid; /* identify sender */ 
int rtm seq; /* for sender to identify action */ 
int rtm errno; /* why failed */ 
int rtm use; /* from rtentry */ 
ulong rtm inits; /* which metrics we are initializing */ 


struct rt metricsrtm rmx; /* metrics themselves */ 
}; 


struct if msghdr 1 /* from «net/if.h» */ 
u short ifm msglen; /* to skip over non-understood messages */ 
u char ifm version; /* future binary compatibility */ 
u_char ifm_type; /* message type */ 
int ifm_addrs; /* like rtm_addrs */ 
int ifm flags; /* value of if flags */ 
u short ifm index; /* index for associated ifp */ 


struct if data ifm data; /* statistics and other data about if */ 


struct ifa msghdr { /* from «net/if.h» */ 
u short ifam_msglen; /* co skip over non-understood messages */ 
u, char ifam version; /* future binary compatibility */ 
u char ifam type; /* message type */ 
int ifam addrs; /* like rtm addrs */ 
int ifam flags; /* value of ifa flags */ 
u short ifam index; /* index for associated ifp */ 
int ifam metric; /* value of ifa metric */ 


) 

struct ifma msghdr { /* from «net/if.h» */ 
u short ifmam_msglen; /* to skip over non-understood messages */ 
u_char ifmam_version; /* future binary compatibility */ 


u_char ifmam_type; /* message type */ 

int ifmam_addrs; /* like rtm_addrs */ 

int ifmam_flags; /* value of ifa_flags */ 

u short ifmam_index; /* index for associated ifp */ 


}; 
struct if announcemsghdr ( /* from «net/if.h» */ 


u short ifan_msglen; /* to skip over non-understood messages */ 
u char ifan version; /* future binary compatibility */ 

u char ifan type; /* message type */ 

u short ifan index; /* index for associated ifp */ 

char ifan name[IFNAMSIZ]; /* if name, e.g. "en0" */ 

u short ifan what; /* what type of announcement */ 





图 18-3 ”路 由 消息 返回 的 三 种 结构 


183 3ikf5 385 


每 个 结构 有 相同 的 前 3 个 成 员 : 本 消息 的 长 度 、 版 本 和 类 型 。 类 型 成 员 是 图 18-2 第 一 列 中 的 
常 值 之 一 。 长 度 成 员 人 允许 应 用 进程 跳 过 不 理解 的 消息 类 型 。 

rtm_addrs、ifm_addrs 和 ifam_addrs 这 3 个 成 员 是 数位 掩 码 (bit mask)， 指 明 本 消息 后 
跟 的 套 接 字 地 址 结构 是 8 个 可 能 选择 中 的 哪 几 个 。 图 18-4 给 出 了 在 <net /route.h> 头 文件 中 定义 
的 可 用 于 逻辑 或 成 数位 掩 码 的 各 个 常 值 及 具体 数值 。 


i | BnR | 
— -EET 僚 接 字 地 址 结构 包含 


RTA DST RTAX DST 0 目的 地 址 
RTA GATEWAY RTAX GATEWAY 网 关 地 址 
RTA NETMASK RTAX NETMASK 2 网 络 掩 码 


RTA_GENMASK RTAX_GENMASK 克隆 掩 码 

RTA_IFP RTAX_IFP 接口 名 字 

RTA IFA 7 RTAX_IFA 接口 地 址 

RTA AUTHOR RTAX. AUTHOR 重 定向 原创 者 

RTA BRD RTAX BRD 广播 或 点 到 点 目的 地 址 


| | daraca | e | 最 大 元 素数 上 | 





图 18-4 在 路 由 消息 中 用 于 指称 套 接 字 地 址 结构 的 常 值 
当 存 在 多 个 套 接 字 地 址 结构 时 ， 它 们 总 是 按 表 中 所 示 的 顺序 排列 。 


例子 : 获取 并 输出 一 个 路 由 表 项 


下 面 举 一 个 使 用 路 由 套 接 字 的 例子 。 我 们 这 个 程序 作为 命令 行 参 数 取 得 一 个 IPv4 点 分 十 进 
制 数 地 址 ， 并 就 这 个 地 址 向 内 核发 送 一 个 RTM_GET 消 息 。 内 核 在 它 的 IPv4 路 由 表 中 查找 这 个 地 
址 ， 并 作为 一 个 RTM_GET 消 息 返 回 相 应 路 由 表 项 的 信息 。 举 例 来 说 ， 如 果 在 主机 freebsa 上 执行 
如 下 命令 : 


freebsd # getrt 206.168.112.219 
dest: 0.0.0.0 

gateway: 12.106.32.1 

netmask: 0.0.0.0 


那么 可 以 看 到 目的 地 址 使 用 默认 路 径 〈 默 认 路 径 在 路 由 表 中 的 目的 人 P 地 址 为 0.0.0.0， 掩 码 为 
0.0.0.0)。 下 一 跳 路 由 器 是 主机 freebsa 接 入 因特网 的 网 关 。 如 果 指 定 主 机 freepbsd 的 第 二 个 以 
太 网 接口 所 在 子 网 为 目的 地 址 执行 如 下 命令 : 

freebsd # getrt 192.168.42.0 

Gest: 192.168.42.0 


gateway: AF LINK, index-2 
netmask: 255.255.255.0 


那么 目的 地 址 就 是 网 络 本 身 。 网 关 现 在 是 外 出 接口 ， 它 作为 一 个 sockadar_dl 结 构 返 回 ， 接 口 
索引 为 2。 
在 给 出 源 代码 之 前 ， 我 们 通过 图 18-5 展 示 写 到 路 由 套 接 字 的 信息 以 及 由 内 核 返回 的 信息 。 
我 们 构造 一 个 缓冲 区 : 以 一 个 rt_msghdar 结 构 开 头 ， 后 跟 一 个 套 接 字 地 址 结构 ， 其 中 含有 
要 内 核查 找 的 目的 地 址 。rtm_type 为 RTM_GET，rtm_addrs 为 RTA_DST〔( 回 顾 图 18-4， 这 表示 那 
个 唯一 的 套 接 字 地 址 结构 中 含有 目的 地 址 )。 本 命令 可 用 于 任何 内 核 为 之 提供 路 由 表 的 协议 族 ， 
因为 待 查找 地 址 的 协议 族 包 含 在 套 接 字 地 址 结构 中 。 


A 
o 
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送 往 内 核 内 核 返 回 
的 缓冲 区 的 缓冲 区 


RTA DST en RTA DST 


网 关 套 接 字 
地 址 结 构 RTA GATEWAY 
网 络 掩 码 

套 接 字 地 址 结构 |RTA_NETMRASK 





克隆 掩 码 套 接 字 
地 址 结构 


RTA_GENMASK 





图 18-5 RTM_GET 命 令 通过 路 由 套 接 字 与 内 核 交换 的 数据 


把 该 消息 发 送 给 内 核 后 ， 我 们 读 回 应 答 ， 其 格式 如 图 18-5 右 侧 所 示 : 一 个 rt_msghar 结 构 
后 最 多 跟 4 个 套 接 字 地 址 结构 。 这 4 个 套 接 字 地 址 结构 中 哪些 得 以 返回 取决 于 路 由 表 项 。 我 们 遂 
过 检查 返回 的 rt_msghar 结 构 中 rtm_adadrs 成 员 的 值得 悉 返 回 了 哪些 套 接 字 地 址 结构 。 每 个 套 
接 字 地 址 结构 的 协议 族 包 含 在 sa_family 成 员 中 ， 对 于 刚才 那 两 个 例子 ， 前 者 返回 的 网 关 是 一 
个 IPv4 套 接 字 地 址 结构 ， 后 者 返回 的 网 关 则 是 一 个 数据 链 路 套 接 字 地 址 结构 。 
图 18-6 给 出 了 我 们 的 程序 的 前 半 部 分 。 
1-3 ”unproute.h 头 文件 以 #include 伪 代码 包含 一 些 必需 的 头 文件 ， 最 后 是 unp .h 文 件 。 常 
值 BUFLEN 是 我 们 分 配 来 存放 发 送 给 内 核 的 消息 和 内 核 返 回 的 应 答 的 缓冲 区 的 大 小 。 该 
缓冲 区 应 能 存放 一 个 rt_msghdar 结 构 和 可 能 多 达 8 个 的 套 接 字 地 址 结构 (能够 返回 的 最 
大 数目 )。 既 然 一 个 IPv6 套 接 字 地 址 结构 的 大 小 是 28 个 字 节 ，512 字 节 空 间 足 以 存放 这 
么 多 套 接 字 地 址 结构 。 
创建 路 由 套 接 字 
17 创建 一 个 AF_ROUTE 域 的 原始 套 接 字 ， 如 前 所 述 ， 这 一 步 可 能 需要 超级 用 户 权 限 。 
填写 rt_msghar 结 构 
18-25 ”分 配 一 个 缓冲 区 并 初始 化 为 0。 在 该 缓冲 区 上 构造 一 个 rt_msghar 结 构 : 填写 我 们 的 请 
求 ， 并 存放 我 们 的 进程 ID 和 选 定 的 序列 号 。 我 们 将 在 读 取 的 应 答 中 匹配 这 些 值 ， 以 寻 
找 正 确 的 应 答 。 
以 目的 地 址 填写 网 际 网 套 接 字 地 址 结构 
26-29 ” 紧 跟 rt_msghar 结 构 ， 我 们 构造 一 个 sockaadr_in 结 构 ， 其 中 含有 要 内 核 在 其 路 由 表 
中 查找 的 目的 IPv4 地 址 。 我 们 仅仅 设置 地 址 长 度 、 地 址 族 和 地 址 本 身 。 
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— CC voute/getrt.c 
1 finclude "unproute.h"* 
2 i#tdefine BUFLEN  (sizeof(struct rt msghdr) + 512) 
3 /* sizeof(struct sockaddr in6) * 8 - 192 */ 
4 #define SEQ 9999 
X 5 int 
6 main(int argc, char **argv) 
7 { 
8 int sockfd; 
9 char *buf; 
10 pid_t pid; 
11 ssize t n; 
12 struct rt msghdr *rtm; 
13 struct sockaddr *sa, *rti info[RTAX MAX]; 
14 Struct sockaddr in *sin; 
15 if (argc != 2) 
16 err quit("usage: getrt «IPaddress»"); 
17 sockfd = Socket (AF_ROUTE, SOCK RAW, 0); /* need superuser privileges */ 
18 buf - Calloc(1, BUFLEN); /* and initialized to 0 */ 
19 rtm = (struct rt msghdr *) buf; 
20 rtm-»rtm msglen = sizeof(struct rt msghdr) + sizeof(struct sockaddr, in); 
21 rtm-»rtm version - RTM VERSION; 
22 rtm-»rtm type = RTM GET; 
23 rtm-»rtm addrs = RTA_DST; 
24 rtm-»rtm pid - pid - getpid(); 
25 rtm-»rtm seg = SEQ; 
26 sin - (struct sockaddr in *) (rtm « 1); 
27 sin-»sin len = sizeof(struct sockaddr in); 
28 sin-»sin family - AF INET; 
29 Inet pton(AF INET, argv[1], &sin-»sin addr); 
30 Write(sockfd, rtm, rtm-»rtm msglen); 
31 do ( 
32 n = Read(sockfd, rtm, BUFLEN); 
33 ) while (rtm-»rtm type != RTM GET || rtm-»rtm seq != SEQ || 
34 rtm-»rtm pid !- pid); 
— route/getrt.c 


图 18-6 ”通过 路 由 套 接 字 发 出 RTM_GET 命 令 的 程序 的 前 半 部 分 


write 消息 到 内 核 并 reada 应 答 
30-34 write 构造 好 的 消息 到 内 核 并 read 回 应 答 。 既 然 其 他 进程 也 可 能 打开 路 由 套 接 字 ， 而 
且 内 核 给 所 有 路 由 套 接 字 都 传送 一 个 全 部 路 由 消息 的 副本 ， 于 是 我 们 必须 检查 消息 的 
类 型 、 序 列 号 和 进程 ID， 以 确保 收 到 的 消息 正 是 我 们 所 等 待 的 应 答 。 
本 程序 的 后 半 部 分 在 图 18-7 中 给 出 。 这 一 半 会 处 理应 答 。 
35-36 ztm 指 向 rt_msghar 结 构 ，sa 指 向 接 在 其 后 的 第 一 个 套 接 字 地 址 结构 。 

37 ”rtm_adars 是 一 个 数位 掩 码 ， 指出 接 在 rt_msghar 结 构 之 后 的 是 8 个 可 能 的 套 接 字 地 址 
结构 中 的 哪 几 个 。get_rtaddars 函 数 〈 接 着 给 出 ) 以 该 掩 码 和 指向 第 一 个 套 接 字 地 址 
结构 的 指针 (sa) 为 参数 ， 在 rti_info 数 组 中 填 入 指向 相应 套 接 字 地 址 结构 的 指针 。 
假设 图 18-$ 所 示 的 所 有 4 个 套 接 字 地 址 结构 都 被 内 核 返回 ， 结 果 rti_info 数 组 将 如 图 
18-8 所 示 。 
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route/getrt.c 

35 rtm - (struct rt msghdr *) buf; 
36 sa = (struct sockaddr *) (rtm + 1); 
37 get rtaddrs(rtm-»rtm addrs, sa, rti info); 
38 if ( (sa = rti, info[RTAX DST]) !- NULL) 
39 printf("dest: %s\n", Sock ntop host(sa, sa-»sa len)); 
40 if ( (sa = rti, info[RTAX GATEWAY]) !- NULL) 
41 printf("gateway: %s\n", Sock ntop host(sa, sa-»sa, ien)); 
42 if ( (sa - rti info[RTAX NETMASK]) !- NULL) 
43 printf("netmask: %s\n", Sock masktop(sa, sa-»sa len)); 
44 if ( (sa = rti, info[RTAX GENMASK]) !- NULL) 
45 printf("genmask: %s\n", Sock masktop(sa, sa-»sa len)); 
46 exit(0); 
47 ) 

一 一 一 route/getrt.c 








图 18-7 通过 路 由 套 接 字 发 出 RTM_GET 命 令 的 程序 的 后 半 部 分 


内 核 返回 
的 缓冲 区 






rt msghdr() 






rtm type - 
RTM GET 






rti info[RTAX DST] 


目的 套 接 字 
rti info[RTAX GATEWAY]| 1 
rti info[RTAX NETMASK][ 地 址 结构 
rti_info[RTRX_GENMRSKI| | 4 
rti info[RTAX IFP] s 
A = 网 关 套 接 字 
rti info[RTAX IFA] 地 址 结构 
网 络 掩 码 套 接 字 
地 址 结构 
克隆 掩 码 套 接 字 
地 址 结构 


rti info[RTAX AUTHOR] 
rti info[RTAX BRD] 
图 18-8 ”get_rtaddrs 函 数 填写 的 rti_info 结 构 
然后 我 们 的 程序 会 遍 查 rti_info 数 组 ， 对 其 中 所 有 非 空 指针 执行 想 做 的 处 理 。 
38-45 ”车 存在 则 逐个 显示 4 个 可 能 的 地 址 。 显 示 目 的 地 址 和 网 关 地 址 使 用 sock_ntop_ host 


函数 ， 显 示 两 个 掩 码 使 用 sock_masktop 函 数 。 我 们 稍 后 给 出 这 个 新 函数 。 
图 18-9 给 出 的 是 图 18-7 中 调用 的 get_rtadqrs 函 数 。 
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—— — — libroute/get rtaddrs.c 





1 #include “unproute.h" 
2/* 
3 * Round up 'a' to next multiple of 'size', which must be a power of 2 
4 */ 
5 #define ROUNDUP(a, size) (((a) & ((size)-1)) ? (1 + ((a) | ((size)-1))) = (a)) 
6 /* 
7 * Step to next socket address structure; 
8 * if sa len is 0, assume it is sizeof(u long). 
9 */ 
10 #define NEXT SA(ap) ap = (SA *) \ 
11 ((caddr t) ap + (ap-»sa, len ? ROUNDUP(ap-»sa len, sizeof (u long)) : \ 
12 sizeof(u long))) 
13 void 
14 get rtaddrs(int addrs, SA *sa, SA **rti info) 
15 ( 
16 int i; 
17 for (i = 0; i < RTAX MAX; i++) { 
18 if (addrs & (1 << i)) ( 
19 rti info[i] - sa; 
20 NEXT SA(sa); 
21 ) else 
22 rti info[i] - NULL; 
23 ) 
24 ) 
libroute/get rtaddrs.c 
图 18-9 ”构造 指向 路 由 消息 中 各 个 套 接 字 地 址 结构 的 指针 数组 
遍历 8 个 可 能 的 指针 
17-23 ”图 18-4 中 RTAX_MAX 值 为 8， 它 是 内 核 在 单个 路 由 消息 中 能 够 返回 的 套 接 字 地 址 结构 的 


最 大 数目 。 本 函数 中 的 循环 查看 图 18-4 中 8 个 RTRA_xocx 数 位 掩 码 常 值 中 的 每 一 个 ， 而 图 
18-3 中 3 种 结构 的 rtm_addrs、ifm_adars 或 1fam_adars 成 员 都 用 于 返回 数位 掩 码 。 如 
果 某 位 被 置 ，rti_info 数 组 中 对 应 的 元 素 就 被 设置 为 指向 相应 套 接 字 地 址 结构 的 指 
针 ， 否 则 该 数组 中 对 应 的 元 素 被 设置 为 空 指针 。 


步 入 下 一 个 套 接 字 地 址 结构 
2-12 ” 套 接 字 地 址 结构 是 可 变 长 度 的 ， 不 过 这 段 代码 假设 每 个 结构 都 有 一 个 指明 自身 长 度 的 


sa_len 成 员 。 这 里 有 两 件 麻烦 事情 必须 处 理 。 首 先 ， 网 络 掩 码 和 克隆 掩 码 这 两 个 掩 码 
可 以 通过 sa_len 成 员 值 为 0 的 套 接 字 地 址 结构 中 返回 ， 然 而 这 种 结构 实际 上 占用 一 个 
unsigned long 的 大 小 。(TCPv2 第 19 章 讨论 了 4.4BSD 路 由 表 的 克隆 特性 。) 这 种 结构 
值 表示 所 有 位 全 为 0 的 掩 码 ， 我 们 早先 的 例子 中 把 默认 路 径 这 样 的 网 络 掩 码 显 示 成 
0.0.0.0。 其 次 ， 每 个 套 接 字 地 址 结构 可 在 末尾 增添 填充 字 节 ， 使 得 下 一 个 结构 从 特定 
的 边界 开始 ， 对 于 本 例子 就 是 一 个 unsigned long 的 大 小 〈 璧 如 在 32 位 体系 结构 中 就 
是 一 个 4 字 节 的 边界 )。 尽 管 sockaddr_in 结 构 因 占据 16 个 字 节 而 不 需要 填充 ， 掩 码 却 
往往 会 在 末尾 出 现 填 充 字 节 。 


我 们 尚未 给 出 的 本 示例 程序 的 最 后 一 个 函数 是 图 18-10 中 的 sock_masktop， 它 返回 可 通过 
路 由 套 接 字 返回 的 那 两 种 掩 码 的 表达 字符 申 。 抢 码 存 放 在 套 接 字 地 址 结构 中 。 掩 码 的 套 接 字 地 
址 结构 其 sa_family 成 员 没 有 定义 ， 但 是 对 于 32 位 的 IPv4 掩 码 其 sa_len 成 员 可 能 取 值 0、5、6、 
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7 或 8。 当 这 个 长 度 大 于 0 时 ， 真正 的 掩 码 离 起 点 的 偏 移 和 IPv4 地 址 在 sockaddr_in 结 构 中 离开 头 
的 偏 移 一 样 ， 都 是 4 个 字 节 (如 TCPv2 第 577 页 图 18-21 所 示 )， 也 就 是 通用 套 接 字 地 址 结构 的 
s_data[2] 成 员 。 


—— — — libroute/sock masktop.c 








1 #include "unproute.h" 


2 const char * 
3 sock masktop(SA *sa, socklen t salen) 


4 1 

5 static char str[INET6 ADDRSTRLEN]; 

6 unsigned char *ptr = &sa->sa_data[2); 

7 if (sa->sa_len == 0) 

8 return("0.0.0.0"); 

9 else if (sa-»sa len == 5) 
10 snprintf(str, sizeof(str), "$d.0.0.0", *ptr); 
11 else if (sa-»sa len == 6) 
12 snprintf(str, sizeof(str), "$d.$d.0.0", *ptr, *(ptr«1)); 
13 else if (sa-»sa len -- 7) 

14 snprintf(str, sizeof(str), "$d.$d.$d.0", *ptr, *(ptr«1), 
15 *(ptr+2)); 

1€ else if (sa-»sa len -- 8) 

17 snprintf(str, sizeof(str), "$d.$d.$d.$d", 

18 *ptr, *(ptr«i1), *(ptr«2), *(ptr«3)); 
19 else 
20 snprintf(str, sizeof(str), "(unknown mask, len = td, family = %d)", 
21 sa-»sa len, sa-»sa family); 
22 return(str); 
23 } 


libroute/sock masktop.c 





图 18-10 把 - 个 掩 码 的 值 转换 成 它 的 表达 格式 


7-21 ， 如果 长 度 为 0， 隐 含 的 掩 码 就 是 0.0.0.0。 如 果 长 度 为 5S， 就 只 存放 32 位 掩 码 的 第 一 个 字 节 ， 
其 余 3 个 字 节 的 隐 含 值 为 0。 当 长 度 为 8 时 ， 掩 码 的 所 有 4 个 字 节 都 被 保存 。 

本 例子 中 我 们 想 读 取 内 核 的 应 答 , 因为 应 答 中 含有 我 们 正在 查找 的 信息 。 然而 通常 情况 下 ， 
write 到 路 由 套 接 字 的 返回 值 会 告知 我 们 发 送 给 内 核 命令 是 否 执行 成 功 。 如 果 我 们 只 需要 知道 
发 送 的 命令 是 否 执行 成 功 ， 那 么 可 以 在 打开 路 由 套 接 字 之 后 立即 以 SHUT_RD 为 第 二 个 参数 调用 
shutdown， 以 防止 内 核发 送 应 答 。 举 例 来 说 ， 如 果 我 们 是 在 删除 一 个 路 径 ， 那 么 write 返回 0 
意味 着 成 功 ， 返 回 EsRcS8H 错 误 意 味 着 内 核 找 不 到 这 个 路 径 (TCPv2 第 608 页 )。 类 似 地 ， 当 增加 一 
个 路 径 时 ，write 返 回 EEXIST 错 误 意味 着 与 这 个 路 径 一 致 的 路 由 表 项 已 经 存在 。 在 图 18-6 的 例 
子 中 ， 如 果 给 定 目 的 地 址 的 路 由 表 项 不 存在 〈 壁 如 说 该 主机 没有 设置 默认 路 径 )，write 将 返回 
一 个 ESRCH 错 误 。 


184 sysctl 操 作 — 
我 们 对 路 由 套 接 字 的 主要 兴趣 点 在 于 使 用 sysct1 函 数 检查 路 由 表 和 接口 列表 。 创建 路 由 套 


HET. (一 个 AF_RouTE 域 的 原始 套 接 字 ) 需要 超级 用 户 权限 ,然而 使 用 sysct1 检 查 路 由 表 和 接口 
列表 的 进程 却 不 限 用 户 权限 。 
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#include <sys/param.h> 
#finclude <sys/sysctl.h> 


int sysctl (int *mame, u int namelen, void *oldp, size_t *oldlenp, 
void *newp, size t newlen) ; 





返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 


这 个 函数 使 用 类 似 简 单 网 络 管理 协议 C Simple Network Management Protocol, SNMP) 中 管 
理 信 息 库 (management information base, MIB) 的 名 字 。TCPv1 第 25 章 详细 讨论 SNMP 和 它 的 
MIB。 这 些 名 字 是 分 层 结 构 的 。 

name 参数 是 指定 名 字 的 一 个 整数 数组 ，mamelen 参 数 指 定 该 数组 中 的 元 素数 月。 该 数组 中 
的 第 一 个 元 素 指 定 本 请 求 定 向 到 内 核 的 哪个 子 系统 。 第 二 个 及 其 后 元 素 逐 次 细 化 指定 该 子 系统 
的 某 个 部 分 。 图 18-11 展 示 了 这 样 的 分 层 排列 ， 以 前 3 级 使 用 的 一 些 常 值 作为 例子 。 


CTL DEBUG CTL HW CTL KERN  CTL MACHDEP CTL USER CTL VFS  CTL VM 
AF INET AF LINK AF ROUTE AF UNSPEC 


We sw 


IPPROTO ICMP IPPROTO IGMP  IPPROTO IP IPPROTO TCP  IPPROTO UDP 


天 由 


图 18-11 sysct1 名 字 的 分 层 排列 


为 了 获取 某 个 值 ，oldp 参 数 指向 一 个 供 内 核 存 放 该 值 的 缓冲 区 。oldlenp 则 是 一 个 值 -结果 参 
数 : 函数 被 调用 时 ，oldaienp 指 向 的 值 指定 该 缓冲 区 的 大 小 ; 函数 返回 时 ， 该 值 给 出 内 核 存放 在 
该 缓冲 区 中 的 数据 量 。 如 果 这 个 缓冲 区 不 够 大 ， 函 数 就 返回 ENOMEM 错 误 。 作 为 特例 ，oldp 可 以 
是 一 个 空 指针 而 oldienp 却 是 一 个 非 空 指针 ， 内 核 确 定 这 样 的 调用 应 该 返回 的 数据 量 ， 并 通过 
oldlenp 返 回 这 个 大 小 。 
为 了 设置 某 个 新 值 ，newp 参 数 指向 一 个 大 小 为 newlen 参 数值 的 缓冲 区 。 如 果 不 准 备 指定 一 
个 新 值 ， 那 么 newp 应 为 一 个 空 指针 ，newlen 应 为 0。 
sysct1 的 手册 页 面 详细 叙述 了 可 使 用 该 函数 获取 的 各 种 系统 信息 , 有 文件 系统 、 虚 拟 内 存 、 
内 核 限 制 、 硬 件 等 各 方面 的 信息 。 我 们 感 兴 趣 的 是 网 络 子 系统 ， 通 过 把 name 数 组 的 第 一 个 元 素 
设置 为 CTL_NET 来 指定 。(CTL_xxx 常 值 在 <sys/sysct1.h> 头 文件 中 定义 ,》 第 二 个 元 素 可 以 是 
以 下 几 种 。 
e AF INET: 获取 或 设置 影响 网 际 网 协议 的 变量 。 下 一 级 为 使 用 某 个 TPPROTO_xxx 常 值 指定 
的 具体 协议 。FreeBSD 5.0 在 这 一 级 提供 了 大 约 75 个 变量 ， 用 于 控制 诸如 内 核 是 否 应 该 产 
生 ICMP 重 定向 、TCP 是 否 应 该 使 用 RFC 1323 选 项 、UDP 校 验 和 是 否 应 该 发 送 等 等 特性 。 
我 们 将 在 本 节 靠 后 给 出 sysct1 如 此 用 途 的 一 个 例子 。 
e AF LINK: 获取 或 设置 链 路 层 信 息 ， 辟 如 PPP 接 口 的 数目 。 
e AF ROUTE: 返回 路 由 表 或 接口 列表 的 信息 。 我 们 稍 候 讲 解 这 些 信息 。 
e AF UNSPEC: 获取 或 设置 一 些 套 接 字 层 变量 ， 辟 如 套 接 字 发 送 或 接收 缓冲 区 的 最 大 大 小 。 
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当 name 数 组 的 第 二 个 元 素 为 AF_ROUTE 时 ， 第 三 个 元 素 (协议 号 ) 总 是 为 0 (因为 AF_ROUTE 
族 不 像 譬如 说 AF_INET 族 那样 其 中 有 协议 )， 第 四 个 元 素 是 一 个 地 址 族 ， 第 五 和 第 六 级 指定 做 什 
么 。 图 18-12 对 此 做 了 汇总 。 


| name[] | 返回 IPv4 路 由 表 | 返回 [Pv4 ARP 高 速 缓存 | 返回 IPv6 路 由 表 | ”返回 接口 清单 


CTL NET CTL NET 
AF ROUTE AF ROUTE 


0 0 

AF INET AF INET6 

NET. RT, FLAGS NET RT DUMP NET RT IFLIST 
RTF_LLINFO 0 0 


图 18-12 sysct1 在 aAF_ROUTE 域 返回 的 信息 


路 由 域 支 持 3 种 操作 ， 由 name[4] 指 定 。(NET_RT_xxx 常 值 在 <sys/socket.h> 头 文件 中 定 
Mo) 这 3 种 操作 返回 的 信息 通过 sysct1 调 用 中 的 oldp 指 针 返 回 。oldp 指 向 的 缓冲 区 中 含有 可 变 
数目 的 RTM_xxx 消 息 〈 图 18-2 )。 

(1) NET_RT_DUMP 返 回 由 name[3] 指 定 的 地 址 族 的 路 由 表 。 如 果 所 指定 的 地 址 族 为 0， 那 么 
返回 所 有 地 址 族 的 路 由 表 。 

路 由 表 作 为 可 变数 目的 RTM_GET 消 息 返 回 , 每 个 消息 后 跟 最 多 4 个 套 接 字 地 址 结构 : 本 路 由 

表 项 的 目的 地 址 、 网 关 、 网 络 掩 码 和 克隆 掩 码 。 我 们 在 图 18-5 右 侧 展 示 了 一 个 这 样 的 消息 ， 而 
图 18-7 中 的 代码 用 于 分 析 这 样 的 消息 。 相 比 直 接 读 写 路 由 套 接 字 的 操作 ，sysct1 操 作 所 有 改动 
仅仅 体现 在 内 核 通过 后 者 返回 一 个 或 多 个 RTM_GET 信 息 。 

(2) NET_RT_FLAGs 返 回 由 mame[3] 指 定 的 地 址 族 的 路 由 表 ， 但 是 仅 限 于 那些 所 带 标志 CH 
干 个 RTF_xxx 常 值 的 逻辑 或 ) 与 由 mame[5] 指 定 的 标志 相 匹 配 的 路 由 表 项 。 路 由 表 中 所 有 ARP 高 
速 缓 存 表 项 均 设置 了 RTF_LLINFO 标 志 位 。 

这 种 操作 的 信息 返回 格式 和 上 一 种 操作 的 一 致 。 

(3) NET_RT_IFLIST 返 回 所 有 已 配置 接口 的 信息 。 如 果 name[5] 不 为 0， 它 就 是 某 个 接口 的 
索引 号 ， 于 是 仅仅 返回 该 接口 的 信息 。( 我 们 将 在 18.6 节 讨论 接口 索引 。) 已 赋予 每 个 接口 的 所 
有 地 址 也 同时 返回 ， 不 过 如 果 mamef31 不 为 0， 那 么 仅 限 于 返回 指定 地 址 族 的 地 址 。 

每 个 接口 的 返回 信息 包括 一 个 RTM_IFINFO 消 息 和 后 跟 的 零 个 或 多 个 RTM_NEWADDR 消 息 , 其 
中 每 个 RTM_NEWADDR 消 息 对 应 已 赋予 该 接口 的 一 个 地 址 。 接 在 RTM_IFINFO 消 息 首部 之 后 的 是 
一 个 数据 链 路 套 接 字 地 址 结构 , 接 在 每 个 RTM_NEWADDR 消 息 首 部 之 后 的 则 是 最 多 3 个 套 接 字 地 址 
结构 : 接口 地 址 、 网 络 掩 码 和 广播 地 址 。 图 18-13 展 示 了 这 两 个 消息 。 


例子 : 判断 UDP 校 验 和 是 否 开启 


下 面 提供 一 个 sysct1 的 简单 例子 ， 对 于 网 际 网 协议 检查 UDP 校 验 和 是 否 开 启 。 有 些 UDP 应 
用 程序 (如 BIND) 在 启动 时 检查 UDP 校 验 和 是 否 已 经 开启 ， 若 没有 则 尝试 开启。 当然 开启 诸如 
此 类 的 特性 需要 超级 用 户 权限 ， 不 过 本 例子 仅仅 检查 这 个 特性 是 否 已 经 开启 。 图 18-14 给 出 了 本 
程序 。 
包含 系统 头 文件 
2~4 ”我 们 必须 包含 <netinet /udp_var.h> 头 文件 以 获得 sysct1 的 UDP 常 值 定义 ,另外 两 个 
头 文件 是 本 头 文件 所 需 的 。 
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内 核 返回 的 缓冲 区 


每 个 接口 一 个 
RTM_IFINFO, 
给 出 接口 名 、 
索引 和 硬件 地 
址 


本 接口 每 个 已 配 
置 的 地 址 一 个 
RTM_NEWADDR 





18-13 ”由 sysct1 的 cCTL_NETVRAF_ROUTE/NET_RT_IFLIST 命 令 返 回 的 信息 
te/checkudpsum.c 





#include "unproute.h" 

#include «netinet/udp.h» 

#include <netinet/ip_var.h> 

#include «netinet/udp var.h» /* for UDPCTL xxx constants */ 
int 

main(int argc, char **argv) 


4o 0) - OU s Uu t de 
一 


int mib[4], val; 
size t len; 
10 mib[0] = CTL NET; 
11 mib[1] = AF INET; 
12 mib[2] = IPPROTO UDP; 
13 mib[3] - UDPCTL CHECKSUM; 
14 len = sizeof(val); 
15 Sysctl(mib, 4, &val, &len, NULL, 0); 
16 printf("udp checksum flag: %d\n", val); 
17 exit (0); 
18 ) 


图 18-14 ”检查 UDP 校 验 和 是 否 开启 
调用 sysct1 
10-16 静态 分 配 一 个 4 个 元 素 的 整数 数组 ， 并 存放 相应 于 图 18-11 所 示 层 次 结构 的 各 个 常 值 。 
既然 仅仅 获取 一 个 变量 的 值 而 不 是 给 它 设 置 新 值 ， 我 们 指定 sysct1 的 newp 参 数 为 一 
个 空 指针 ，newlen 参 数 为 0。oldp 指 向 一 个 我 们 提供 来 存放 结果 的 整数 变量 ，oldenp 指 
向 一 个 “ 值 -结果 ”变量 ， 其 值 为 该 整数 变量 的 大 小 。 我 们 显示 的 标志 将 为 0 (禁止 ) 
或 1 (开启 )。 
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18.5 get ifi info 函数 | 





我 们 现在 返回 到 17.6 节 的 例子 : 作为 一 个 ifi_info 结 构 链表 返回 所 有 在 工 ( 即 处 于 UP 状态 ) 
的 接口 (图 17-5)。prifinfo 程 序 保持 不 变 (图 17-6), 但 是 这 里 给 出 的 get_ifi_info 函 数 是 使 
用 sysct1 实 现 的 版 本 ， 它 取代 图 17-7 中 使 用 的 SIOCGIFCONF ioct1 实 现 的 版 本 。 

我 们 首先 在 图 18-15 中 给 出 函数 net_rt_iflist。 该 函数 以 NET_RT_IFLITST 命 令 调 用 








sysct1 返 回 指定 地 址 族 的 接口 列表 。 
libroute/net rt iflist.c 
1 finclude "unproute.h" 
2 char * 
3 net rt iflist(int family, int flags, size t *lenp) 
4 ( 
5 int mib[6]; 
6 char *buf; 
7 mib[0] = CTL_NET; 
8 mib[1] = AF_ROUTE; 
9 mib[2} = 0; 
10 mib[3] = family; /* oniy addresses of this family */ 
11 mib[4] = NET_RT_IFLIST; 
12 mib(5] = flags; /* interface index or 0 */ 
13 if (sysctl(mib, 6, NULL, lenp, NULL, 0) < 0) 
14 return (NULL); 
15 if ( (buf = malloc(*lenp)) -- NULL) 
16 return (NULL) ; 
17 if (sysctl(mib, 6, buf, lenp, NULL, 0) < 0) í 
18 free(buf); 
19 return (NULL) ; 
20 } 
21 return (buf); 
22 } 
libroute/net rt iflist.c 
图 18-15 ”调用 sysct1 返 回 接口 列表 
7-14 如 图 18-12 所 示 ， 我 们 把 数组 mib 初 始 化 成 用 于 返回 接口 列表 以 及 每 个 接口 已 配置 的 指 


15-21 


定 地 址 族 的 地 址 。 然 后 调用 sysct1 两 次 。 第 一 次 调用 时 指定 第 三 个 参数 为 空 指 针 ， 从 
而 lenp 指 向 的 变量 中 将 返回 存放 所 有 接口 信息 所 需 缓冲 区 的 大 小 。 

动态 分 配 这 个 缓冲 区 并 再 次 调用 sysct1, 这 次 指定 第 三 个 参数 为 指向 新 分 配 缓冲 区 的 
一 个 指针 。 这 次 lenp 指 向 的 变量 将 返回 存放 在 缓冲 区 中 的 信息 量 ， 而 这 个 变量 是 调用 
者 分 配 的 。 指 向 这 个 缓冲 区 的 指针 则 作为 函数 返回 值 返回 给 调用 者 。 


既然 路 由 表 的 大 小 和 接口 的 数目 可 能 在 两 次 sysct1 调 用 之 间 发 生变 化 , 第 一 次 调用 的 返 
回 值 实际 含有 一 个 10% 的 余 量 因子 (TCPv2 第 639 ~ 640 页 )。 


图 18-16 给 出 了 get_ifi_info 函 数 的 前 半 部 分 。 


6~14 
17~19 


声明 局 部 变量 ， 然 后 调用 net_rt_iflist 函 数 。 

for 循 环 遍 查 由 sysct1 返 回 并 填写 到 组 神 区 中 的 每 个 路 由 消息 。 我 们 假定 消息 是 一 个 
if_msghdr 结 构 ， 再 查看 其 ifm_type 成 员 。 (注意 所 有 3 种 路 有 消息 结构 的 前 3 个 成 员 
是 相同 的 ， 因 此 用 这 3 种 结构 中 的 哪 一 种 来 查看 类 型 成 员 并 无 分 别 。) 
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一 








1 finclude “unpifi.h" 
2 #include "unproute.h" 


3 struct ifi info * 
4 get ifi info(int family, int doaliases) 


char *buf, *next, *lim; 


5 { 

6 int flags; 
7 

8 size t len; 


route/get ifi info.c 


9 struct if msghdr*ifm; 

10 struct ifa msghdr *ifam; 

11 struct sockaddr *sa, *rti info[RTAX MAX]; 

12 struct sockaddr dl *sdl; 

13 struct ifi info *ifi, *ifisave, *ifihead, **ifipnext; 

14 buf - Net rt iflist(family, 0, &len); 

15 ifihead - NULL; 

16 ifipnext - &ifihead; 

17 lim = buf + len; 

18 for (next = buf; next < lim; next += ifm->ifm msglen) { 

19 ifm = (struct if_msghdr *) next; 

20 if (ifm-»ifm type == RTM IFINFO) { 

21 if ( ((flags = ifm-»ifm flags) & IFF UP) == 0) 

22 continue; /* ignore if interface not up */ 

23 sa = (struct sockaddr *) (ifm + 1); 

24 get rtaddrs(ifm-»ifm addrs, sa, rti info); 

25 if ( (sa = rti info[RTAX IFP]) !- NULL) ( 

26 ifi = Calioc(l, sizeof(struct ifi info)); 

27 *ifipnext - ifi; /* prev points to this new one */ 
28 ifipnext = &ifi-»ifi next; /* ptr to next one goes here */ 
29 ifi-»ifi flags - flags; 

30 if (sa-»sa family == AF LINK) ( 

31 sdl - (struct sockaddr dl *) sa; 

32 ifi-»ifi index = sdl-»sdl index; 

33 if (sdl-»sdl, nlen > 0) 

34 snprintf(ifi-»ifi name, IFI NAME, "%*s", 
35 sdl-»sdl nlen, &sdl-»sdl data[0]); 
36 else 

37 snprintf(ifi-»ifi name, IFI NAME, "index $d", 
38 sdl-»sdl, index); 

39 if ( (ifi-»ifi hlen = sdl-»sdl alen) > 0) 

40 memcpy (ifi->ifi_haddr, LLADDR(sdl), 

41 min(IFI HADDR, sdl-»sdl alen)); 

42 } 

43 } 





18-16 get_ifi_info 函 数 前 半 部 分 
检查 接口 是 否 在 工作 


route/get ifi info.c 


20-22 sysct1l 已 为 每 个 接口 返回 一 个 RTM_IFINEO 结 构 。 如 果 当 前 接口 不 在 工作 (处 于 DOWN 


状态 )， 那 就 忽略 它 。 
判断 存在 哪些 套 接 字 地 址 结构 


23-24 ”sa 指向 if_msghar 结 构 之 后 的 第 一 个 套 接 字 地 址 结构 。get_rtaGars 函 数 将 根据 出 现 


哪些 套 接 字 地 址 结构 初始 化 rti_info 数 组 。 
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处 理 接口 名 字 

25~43 ”如 果 出 现 携带 接口 名 字 的 套 接 字 地 址 结构 , 那 就 动态 分 配 一 个 ifi_info 结 构 并 存放 接 
口 标 志 。 这 个 套 接 字 地 址 结构 的 预期 地 址 族 为 AF_LINK， 表 示 它 是 一 个 数据 链 路 套 接 
字 地 址 结构 。 我 们 把 其 中 的 接口 索引 存放 到 ifi_index 成 员 。 如 果 sdl_nlen 成 员 不 为 
0， 那 就 把 接口 名 字 复 制 到 ifi_info 结 构 ; 否则 把 接口 索引 字符 串 作 为 接口 名 字 存 放 。 
如 果 sdal_alen 成 员 不 为 0, 那 就 把 硬件 地 址 ( 壁 如 以 太 网 地 址 ) 复制 到 ifi_info 结 构 ， 
其 长 度 则 在 ifi_hlen 中 返回 。 

图 18-17 给 出 了 get_ifi_info 函 数 的 后 半 部 分 ， 用 于 返回 当前 接口 的 卫 地 址 。 


route/get ifi info.c 





44 ) eise if (ifm->ifm type == RTM NEWADDR) { 

45 if (ifi->ifi_addr) ( /* already have an IP addr for i/f */ 

46 if (doaliases -- 0) 

47 continue; 

48 /* we have a new IP addr for existing interface */ 

49 ifisave = ifi; 

50 ifi = Calloc(1, sizeof(struct ifi_info)); 

51 *ifipnext = ifi; /* prev points to this new one */ 

52 ifipnext = &ifi->ifi_next; /* ptr to next one goes here */ 
53 ifi->ifi_flags ifisave->ifi_flags; 


54 ifi->ifi_index ifisave->ifi_index; 

55 ifi->ifi_hlen = ifisave->ifi_hlen; 

56 memcpy (ifi->ifi_name, ifisave->ifi_name, IFI NAME); 
57 memcpy (ifi->ifi_haddr, ifisave->ifi_haddr, IFI HADDR); 
58 } 

59 ifam = (struct ifa_msghdr *) next; 

60 sa = (struct sockaddr *) (ifam + 1); 

61 get_rtaddrs(ifam->ifam_addrs, sa, rti info); 

62 if ( (sa = rti info[RTAX IFA]) != NULL) ( 

63 ifi-»ifi addr = Calloc(1, sa-»sa, len); 

64 memcpy(ifi-»ifi, addr, sa, sa-»sa ler); 

65 } 

66 if ((flags & IFF_BROADCAST)&&(sa = rti_info[RTAX_BRD]) ! =NULL) { 
67 ifi-»ifi brdaddr = Calloc(1, sa-»sa len); 

68 memcpy(ifi-»ifi brdaddr, sa, sa-»sa len); 

69 } 

70 if ((flags & IFF_POINTOPOINT) && 

1 (sa = rti_info[RTAX_BRD]) != NULL) { 

72 ifi->ifi_dstaddr = Calloc(1, sa->sa_len); 

73 memcpy (ifi->ifi_dstaddr, sa, sa->sa_len); 

74 ) 

75 ) else 

76 err quit("unexpected message type $d", ifm-»ifm type); 

77 } 

78 /* "ifihead" points to the first structure in the linked list */ 
79 return(ifihead); /* ptr to first structure in linked list */ 
80 ) 


route/get ifi info.c 





图 18-17 get ifi infoPKJ*Um 4) 
返回 IP 地 址 
44-65 ”sysctl 已 为 当前 接口 每 个 已 配置 地 址 返回 一 个 RTM_NEWADDR 消 息 , 包括 主 地 址 和 所 有 
别名 地 址 。 如 果 当 前 接口 在 其 1fi_info 结 构 中 的 人 P 地 址 已 经 填写 ,， 我们 就 知道 当前 处 
理 的 是 一 个 别名 地 址 。 这 种 情况 下 如 果 调 用 者 想 要 别名 地 址 ， 我 们 就 得 再 分 配 一 个 
ifi_info 结 构 ， 复 制 已 经 填写 的 字段 ， 然 后 填 入 当前 处 理 的 别名 地 址 。 
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返回 广播 地 址 和 目的 地 址 
66 一 75 ”如 果 当 前 接口 支持 广播 ， 那 就 返回 其 广播 地 址 ; 如果 当前 接口 是 点 对 点 接口 ， 那 就 返 
回 其 目的 地 址 。 


RFC 3493 [Gilligan et al. 2003] 定义 了 4 个 处 理 接口 名 字 和 索引 的 函数 。 这 4 个 函数 用 于 需 
要 描述 一 个 接口 的 场合 ， 并 且 是 为 IPv6 API 引 入 的 ， 不 过 也 适用 于 IPv4 API。 我 们 将 在 第 21 章 介 
绍 IPv6 多 播 和 在 第 27 章 介绍 IPv6 选 项 时 讲解 它们 的 用 途 。 这 里 存在 一 个 基本 概念 ， 即 每 个 接口 
都 有 一 个 唯一 的 名 字 和 一 个 唯一 的 正 值 索 引 〈0 从 不 用 作 索 引 )。 


#include <net/if.h> 
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unsigned int if nametoindex(const char *ifname); 
返回 : 若 成 功 则 为 正 的 接口 索引 ， 若 出 错 则 为 0 


char *if indextoname(unsigned int ifindex, char *ifname); 


返回 : 若 成 功 则 为 指向 接口 名 字 的 指针 ， 若 出 错 则 为 NULTL 


struct if nameindex *if nameindex(void); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULE 


void if freenameindex(struct if, nameindex *ptr) ; 


if_nametoindex 返 回 名 字 为 jhrame 的 接口 的 索引 。if_indextoname 返 回 索 引 为 jfindex 的 
接口 的 名 字 。iframe 参 数 指向 一 个 大 小 为 TFNAMSIZ 的 缓冲 区 (该 常 值 在 <net /if.h> 头 文件 中 定 
义 ， 如 图 17-2 所 示 )， 调 用 者 必须 分 配 这 个 缓冲 区 以 保存 结果 ， 调 用 成 功 时 这 个 指针 也 是 函数 的 
返回 值 。 

if_nameindex 返 回 一 个 指向 if_nameindex 结 构 数 组 的 指针 ， 该 结构 定义 如 下 。 


struct if nameindex { 
unsigned int if index; /* 1, 2, ... */ 
char *if name; /* null terminated name: "le0", ... */ 
}; 


该 数组 最 后 一 个 元 素 的 if_inaex 成 员 为 0，if_name 成 员 为 空 指针 。 该 数组 本 身 以 及 数组 
中 各 个 元 素 指 向 的 名 字 所 用 的 内 存 空间 由 该 函数 动态 获取 ， 然 后 由 if_freenameindex 函 数 归 
下 面 使 用 路 由 套 接 字 给 出 这 4 个 函数 的 一 个 实现 。 


18.6.1 i£ nametoindex 函数 


图 18-18 给 出 的 是 if_nametoindex 函 数 。 
获取 接口 列表 
12-13 ”我 们 的 net_rt_iflist 函 数 返 回 接口 列表 。 
只 处 理 RTM_IFINFO 消 息 


17-30 ”处 理 缓冲 区 中 的 消息 (图 18-13)， 仅 仅 查 找 RTM_IFINFO 消 息 。 找 到 一 个 后 调用 get_ 


rtadqdrs 函 数 设置 指向 各 个 套 接 字 地 址 结构 的 指针 ， 如 果 存 在 一 个 接口 名 字 结 构 〔 它 由 
rti_info [RTAX_IFP] 指针 所 指 )， 那 就 比较 其 中 的 接口 名 字 和 调用 者 指定 的 参数 。 
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1 #include "unpifi.h" 
2 #include "unproute.h" 


3 unsigned int 
4 if nametoindex(const char *name) 


5 { 

6 unsigned int idx, namelen; 
7 char *buf, *next, *lim; 
8 size t len; 

9 struct if msghdr *ifm; 

0 
1 


— —- — libroute/if nametoindex.c 


1 struct sockaddr *sa, *rti, info[RTAX MAX); 

1 struct sockaddr dl  *sdl; 

12 if ( (buf - net rt iflist(0, 0, &len)) -- NULL) 

13 return(0); 

14 namelen - strlen(name); 

15 lim = buf + len; 

16 for (next = buf; next < lim; next += ifm-»ifm msglen) { 
17 ifm = (struct if msghdr *) next; 

18 if (ifm-»ifm type == RTM IFINFO) { 

19 Sa = (struct sockaddr *) (ifm + 1); 

20 get rtaddrs(ifm-»ifm addrs, sa, rti, info); 

21 if ( (sa = rti info[RTAX IFP]) != NULL) { 

22 if (sa-»sa family == AF LINK) { 

23 sdl = (struct sockaddr dl *) sa; 

24 if (sdl-»sdl nlen == namelen 

25 && strncmp(&sdl-»sdl data[0], name, 
26 sdl-»sdl nlen) == 0) { 
27 idx = sdl->sdl_index; /* save before free() */ 
28 free (buf); 

29 return (idx); 

30 } 

3i ) 

32 ) 

33 ) 

34 ) 

35 free (buf); 

36 return(0); /* no match for name */ 

37 ) 


图 18-18 给 定 接口 名 字 返 回 其 接口 索引 


18.6.2 if indextoname 函数 
下 一 个 函数 ifindextoname 如 图 18-19 所 示 。 


1 #include "unpifi.h" 

2 #include "unproute.h" 

3 char * 

4 if indextoname(unsigned int idx, char *name) 
5d 

6 char  *buf, *next, *lim; 

7 size t len; 


图 18-19 给 定 接口 索引 返回 其 接口 名 字 


libroute/if nametoindex.c 


libroute/if indextoname.c 
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8 struct if msghdr *ifm; 

9 struct sockaddr *sa, *rti info[RTAX MAX]; 

10 struct sockaddr dl *sdl; 

11 if ( (buf = net rt iflist(0, idx, &len)) == NULL) 

12 return (NULL) ; 

13 lim = buf + len; 

14 for (next = buf; next < lim; next += ifm-»ifm msglen) { 
15 ifm = (struct if_msghdr *) next; 

16 if (ifm->ifm_type == RTM IFINFO) ( 

17 sa = (struct sockaddr *) (ifm + 1); 

18 get rtaddrs(ifm-»ifm addrs, sa, rti, info); 

19 if ( (sa = rti info[RTAX IFP]) != NULL) ( 

20 if (sa-»sa family == AF_LINK) ( 

21 säl = (struct sockaddr dl *) sa; 

22 if (sdl-»sdl index -- idx) ( 

23 int slen - min(IFNAMSIZ - 1, sdl-»sdl nlen); 
24 strncpy(name, sdl-»sdl data, slen); 
25 name[slen] - 0; /* null terminate */ 
26 free (buf) ; 

27 return (name) ; 

28 ) 

29 } 

30 } 

31 

32 } 

33 free (buf); 

34 return (NULL) ; /* no match for index */ 

35 } 


libroute/if_indextoname.c 
图 18-19 (HE) 


本 函数 和 前 一 个 函数 几乎 相同 ， 不 过 这 里 我 们 不 是 查找 接口 名 字 ， 而 是 比较 接口 索引 和 由 
调用 者 指定 的 参数 。 另 外 ， 调 用 net_rt_iflist 函 数 指定 的 第 二 个 参数 是 期 望 的 索引 ， 因 此 结 
果 应 该 只 含有 期 望 接 口 的 信息 。 找 到 匹配 的 接口 后 ， 复 制 并 返回 以 空 字符 结尾 的 接口 名 字 。 


18.6.3 if _nameindex 函数 


下 一 个 函数 if_nameindex 返 回 一 个 if_nameindex 结 构 数 组 ， 其 中 含有 所 有 的 接口 名 字 和 

索引 对 ， 如 图 18-20 所 示 。 

获取 接口 列表 ， 为 结果 分 配 空间 

13-18 ”调用 我 们 的 net_rt_iflist 函 数 返回 接口 列表 。 我 们 还 把 由 这 个 函数 返回 的 大 小 作为 
分 配 一 个 缓冲 区 的 大 小 ， 该 缓冲 区 用 于 存放 将 返回 给 调用 者 的 if _ nameindex 结 构 数 
组 。 这 是 一 个 过 高 的 估计 ， 不 过 总 比 饥 历 两 趟 接口 列表 简单 : 一 趟 是 为 了 统计 接口 的 
数目 和 各 个 名 字 总 的 大 小 ， 另 一 趟 是 为 了 填写 信息 。 我 们 从 该 缓冲 区 的 开头 往 前 〈 正 
向 ) 构建 if_nameindaex 数 组 ， 从 缓冲 区 末尾 往 后 〈 反 向 ) 存放 接口 名 字 。 

只 处 理 RTM_IFINFO 消 息 

22-36 ”遍历 所 有 的 消息 ， 从 中 查找 各 个 RTM_INFO 消 息 及 后 跟 的 数据 链 路 套 接 字 地 址 结构 。 把 
接口 名 字 和 索引 存放 到 正在 构建 的 数组 中 。 

终止 数组 

38-39 ”把 数组 最 后 一 个 元 素 的 1f_name 置 为 空 ，if_index 置 为 0。 
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libroute/if nameindex.c 
1 #include "unpifi.h" 
2 #inciude "unproute.h" 
3 struct if nameindex * 
4 if nameindex(void) 
5 { 
6 char *buf, *next, *lim; 
7 size t len; 
8 struct if msghdr *ifm; 
9 struct sockaddr *sa, *rti info(RTAX MAX); 
10 struct sockaddr dl *sdl; 
11 Struct if nameindex *result, *ifptr; 
12 char *namptr; 
13 if ( (buf = net, rt iflist(0, 0, &len)) == NULL) 
14 return (NULL); 
15 if ( (result = malloc(len)) -- NULL) /* overestimate */ 
16 return (NULL); 
17 ifptr - result; 
18 namptr = (char *) result + len; /* names start at end of buffer */ 
19 lim = buf + len; 
20 for (next = buf; next < lim; next += ifm-»ifm msglen) { 
1 ifm = (struct i£ msghdr *) next; 
22 if (ifm-»ifm type -- RTM IFINFO) ( 
23 sa = (struct sockaddr *) (ifm + 1); 
24 get rtaddrs(ifm-»ifm addrs, sa, rti, info); 
25 if ( (sa - rti info[RTAX IFP]) !- NULL) ( 
26 if (sa-»sa family -- AF LINK) ( 
27 sdl = (struct sockaddr dl *) sa; 
28 namptr -= sdl-»sdl nlen + ?; 
29 strncpy(namptr, &sdl-»-sdl data[0], sdl-»sdl, nlen); 
30 namptr[sdl->sdl_nlen] = 0; /* null terminate */ 
31 ifptr-»if name = namptr; 
32 ifptr-»if index = sdl-»sdl index; 
33 ifptr++; 
34 } 
35 } 
36 } 
37 } 
38 ifptr->if_name = NULL; /* mark end of array of structs */ 
39 ifptr->if_index = 0; 
40 free (buf); 
41 return(result); /* caller must free() this when done */ 


SS — — — — — libroute/if nameindex.c 
图 18-20 返回 所 有 的 接口 名 字 和 索引 
18.6.4 if freenameindex 函数 


最 后 一 个 函数 如 图 18-21 所 示 ， 它 释放 为 if_nameindex 结 构 数组 及 其 中 所 含 的 名 字 分 配 的 
内 存 空间 。 
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libroute/if nameindex.c 
43 void 
44 if freenameindex(struct if nameindex *ptr) 
45 ( 
46 free (ptr); 
47 ) 
-—— -— —— — libroute/if_nameindex.c 


图 18-21 释放 由 if_nameinaex 分 配 的 内 存 空 间 


本 函数 极其 简单 , 因为 在 if_nameinaex 函 数 中 我 们 把 结构 数组 和 名 字 存 放 在 同一 个 缓冲 区 
内 。 要 是 我 们 在 if_nameindex 函 数 中 对 每 个 名 字 都 调用 malloc， 那 么 为 了 释放 内 存 空间 ， 我 
们 将 不 得 不 遍历 整个 数组 ， 先 释放 每 个 名 字 的 内 存 空 间 ， 再 释放 数组 本 身 。 
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我 们 在 本 书 中 最 后 遇 到 的 套 接 字 地 址 结构 是 sockaddr_d1 结 构 ， 它 是 一 种 可 变 长 度 的 数据 
链 路 套 接 字 地 址 结构 。 源 自 Berkeley 的 内 核 把 它们 和 接口 联系 起 来 ， 以 便 返 回 接口 索引 、 名 字 
和 硬件 地 址 。 

进程 可 以 写 到 路 由 套 接 字 的 消息 有 5 个 类 型 ， 内 核 可 通过 路 由 套 接 字 异 步 返回 的 消息 有 15 
个 类 型 。 我 们 给 出 了 这 样 一 个 例子 : 进程 向 内 核 请 求 关于 一 个 路 由 表 项 的 信息 ， 内 核 作 为 响应 
给 出 所 有 的 细节 信息 。 这些 内 核 响应 消息 含有 最 多 8 个 套 接 字 地 址 结构 , 我 们 必须 分 析 这 些 消 息 
以 获取 其 中 的 每 条 信息 。 

sysct1 函 数 是 获取 和 设置 操作 系统 参数 的 一 个 通用 方法 。 我 们 所 关注 的 sysct1 操 作 和 包括 : 

e 倾 海 出 接口 列表 ; 

e 倾泻 出 路 由 表 ; 

e 倾泻 出 ARP 高 速 缓存 。 

IPv6 要 求 对 套 接 字 API 实 施 的 相关 改动 包括 在 接口 名 字 和 接口 索引 之 间 进 行 映射 的 4 个 函 
数 。 每 个 接口 都 被 赋予 一 个 唯一 的 正 值 索引 。 源 自 Berkeley 的 实现 已 经 把 索引 和 每 个 接口 联系 
在 一 起 ， 因 此 我 们 可 以 很 容易 地 使 用 sysct1 实 现 这 些 函 数 。 
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18.1 对 于 一 个 名 为 eth10 且 链 路 层 地 址 是 一 个 64 位 IEEE EUL64 地 址 的 接口 而 言 ， 你 预期 它 的 数据 链 路 套 
接 字 地 址 结构 中 的 sal_len 成 员 会 是 什么 ? 
18.2 图 18-6 中 若 在 调用 write 之 前 禁止 so_usELOOPBACK 套 接 字 选 项 ， 将 会 发 生 什 么 ? 
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随 着 全 安全 体系 结构 (IPsec， 见 RFC 2401 [Kent and Atkinson 1998a]) 的 引入 ， 私 钥 体系 
加 密 和 认证 密 钥 的 管理 越 来 越 需要 一 套 标 准 的 机 制 . RFC 2367 [ McDonald, Metz, and Phan 1998 ] 
介绍 了 一 个 通用 密 钥 管理 API， 可 用 于 IPsec 和 其 他 网 络 安 全 服务 。 与 路 由 域 套 接 字 (第 18 章 ) 
类 似 ， 该 API 也 创建 了 一 个 新 的 协议 族 即 PF_KEY 域 。 在 这 个 密 钥 管理 域 中 ， 唯 一 支持 的 一 种 套 
接 字 是 原始 套 接 字 。 


正如 4.2 节 中 所 述 ， 在 大 多 数 系 统 上 常 值 AF_KEY 将 被 定义 成 与 PF_KEY 有 相同 的 值 。 然 而 
REC 2367 相 当 明 确 地 认为 密 钥 管理 套 接 字 必 须 使 用 PF_KEY 这 个 常 值 。 


打开 原始 密 钥 管理 套 接 字 需 要 特权 。 在 特权 按 需 分 割 的 系统 上 ， 打 开 密 钥 管理 套 接 字 这 样 
的 操作 必须 自 有 一 个 单独 的 特权 。 在 普通 的 Unix 系 统 上 ， 密 钥 管理 套 接 字 仅 限 超 级 用 户 有 打开 
权限 。 

IPsec 基 于 安全 关联 (security association; SA) 为 分 组 提供 安全 服务 。SA 描 述 了 源 地 址 与 
目的 地 址 (加 上 可 选 的 传输 协议 和 端口 )、、 机 制 (例如 认证 ) 以 及 密 钥 素材 的 组 合 。 单 个 分 组 交 
通 流 上 每 个 方向 都 可 以 应 用 不 止 一 个 SA 例如 一 个 用 于 认证 ， 一 个 用 于 加 密 )。 存 放 在 一 个 系 
统 中 的 所 有 SA 构成 的 集合 称 为 安全 关联 数据 库 (security association database, SADB). 

一 个 系统 的 SADB 可 能 用 于 IPsec 以 外 的 场合 , 举例 来 说 , OSPFv2、RIPv2、RSVP、Mobile-IP 
等 在 SADB 中 也 可 能 有 各 自 的 表 项 。 据 此 PF_KEY 套 接 字 不 仅 限 IPsec 使 用 。 

IPsec 还 需要 一 个 安全 策略 数据 库 〈security policy database，SPDB)。SPDB 描 述 分 组 流通 的 
需求 ， 例 如 主机 A 和 主机 B 之 间 的 分 组 流通 必须 使 用 IPsec AH 认证 ， 未 经 认证 的 一 律 被 丢弃 。 
SADB 描 述 如 何 执行 所 需 的 安全 步骤 ， 例 如 假设 主机 A 和 主机 B 之 间 的 分 组 流通 按照 策略 在 使 用 
IPsec AH, SADB 就 含有 所 用 的 算法 和 密 钥 。 不 幸 的 是 , SPDB 没 有 标准 的 维护 机 制 。 尽 管 PF_KEY 
可 以 维护 SADB, 对 SPDB 却 无 能 为 力 。KAME 的 IPsec 实现 使 用 PF_KEY 的 扩展 类 型 来 维护 SPDB， 
不 过 这 种 做 法 没有 标准 可 循 。 

密 钥 管理 套 接 字 上 支持 3 种 类 型 的 操作 。 

(D 通过 写 出 到 密 钥 管理 套 接 字 , 进程 可 以 往 内 核 以 及 打开 着 密 钥 管理 套 接 字 的 所 有 其 他 进 
程 发 送 消息 。SADB 表 项 的 增加 和 删除 采用 这 种 操作 实现 ， 诸 如 OSPFv2 等 自行 保障 安全 的 进程 
也 采用 这 种 操作 从 某 个 密 钥 管理 守护 进程 请 求 密 钥 。 

(2) 通过 从 密 钥 管理 套 接 字 读 入 ， 进 程 可 以 自 内 核 (或 其 他 进程 ) 接收 消息 。 内 核 可 以 采用 
这 种 操作 请 求 某 个 密 钥 管理 守护 进程 为 依照 策略 需 受 保护 的 一 个 新 的 TCP 会 话 安装 一 个 SA。 

(3) 进程 可 以 往 内 核发 送 一 个 倾泻 (dumping ) 请求 消息 , 内 核 作 为 应 答 倾泻 出 当前 的 SADB。 
这 是 一 个 调试 功能 ， 并 非 所 有 系统 上 都 一 定 可 用 。 
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穿越 密 钥 管理 套 接 字 的 所 有 消息 都 有 同样 的 基本 首部 ， 如 图 19-1 所 示 。 每 个 消息 可 能 后 跟 
各 种 扩展 〈extention)， 取 决 于 可 提供 的 或 所 请 求 的 额外 信息 。 所 有 这 些 相关 结构 都 定义 在 头 文 
件 <net /pfkeyv2.h> 中 。 每 个 消息 和 扩展 都 是 64 位 对 齐 的 ,长度 是 8 字 节 的 整数 倍 。 所 有 的 长 度 
字段 均 以 64 位 为 单位 ， 也 就 是 说 长 度 为 1 意味 着 8 个 字 节 。 数 据 部 分 不 是 恰好 处 于 某 个 64 位 边界 
的 扩展 必须 填充 到 下 一 -个 64 位 边界 。 填 充 字 节 的 具体 值 没 有 定义 。 


struct sadb msg { 











u int8 t sadb msg version; /* PF KEY V2 */ 

u int8 t sadb msg type; /* see Figure 19.2 */ 

u int8 t sadb msg errno; /* error indication */ 

u int8 t sadb msg satype; /* see Figure 19.3 */ 

u intl6 t sadb msg len; /* length of header « extension / 8 */ 

u .intl16 t sadb msg reserved; /* zero on transmit, ignored on receive */ 
u, int32 t sadb msg, seq; /* sequence number */ 

u int32 t sadb msg pid; /* process ID of source or dest */ 


}; 











图 19-1 ” 密 钥 管理 消息 首部 


sadb_msg_type 成 员 确 定 本 消息 是 图 19-2 列 出 的 10 个 密 钥 管理 消息 类 型 中 的 哪 一 个 。 每 个 
sadb_msg 首 部 将 后 跟 零 个 或 多 个 扩展 。 大 多 数 消息 类 型 都 有 必需 的 和 可 选 的 扩展 ， 我 们 将 在 讲 
解 每 个 消息 类 型 时 提 到 这 些 。 图 19-3 列 出 了 16 个 扩展 类 型 以 及 定义 各 个 扩展 的 结构 的 名 称 。 


请 求 创建 一 个 SADB 表 项 

SADB ADD 增加 一 个 完整 的 SADB 表 项 

SADB DELETE 删除 一 个 SADB 表 项 

SADB_DUMP 倾泻 出 SADB〔 调 试用 ) 

SADB EXPIRE 通知 某 个 SADB 表 项 已 经 期 满 

SADB FLUSH 冲刷 整个 SADB 

SADB GET 获取 一 个 SADB 表 项 

SADB GETSPI 分 配 一 个 用 于 创建 SADB 表 项 的 SPI 

SADB REGISTER 注册 成 saADB_ACQUIRE 的 应 答 者 
更 改 一 个 不 完备 的 SADB 表 项 


图 19-2 ”通过 密 钥 管理 套 接 字 交 换 的 消息 类 型 


TE 















SADB_EXT_ADDRESS_DST SA 目的 地 址 sadb_address 
SADB EXT ADDRESS PROXY SA 代理 地 址 sadb address 
SADB EXT ADDRESS SRC SA 源 地 址 sadb_address 


SADB EXT IDENTITY DST 目的 身份 sadb_ident 
SADB_EXT_IDENTITY_SRC 源 身 份 sadb ident 
SADB EXT KEY, AUTE 认证 密 钥 sadb_key 
SADB_EX'T_KEY_ENCRYPT 加 密 密 钥 sadb, key 


SADB EXT LIFETIME CURRENT SA 当前 生命 期 sadb lifetime 
SADB EXT LIFETIME, HARD SA 生命 期 硬 限 制 sadb, lifetime 
SADB EXT LIFETIME SOPT SA 生命 期 软 限 制 sadb lifetime 


















图 19-3 ”PF_KEY 扩 展 类 型 
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NEGET 
pO 













CTI 
RSP 


SADB_EXT_SUPPORTED_AUTH 得 到 支持 的 认证 算法 sadb supported 
得 到 支持 的 加 密 算法 









SADB EXT SUPPORTED ENCRYPT sadb, supported 
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我 们 接 下 来 给 出 一 些 例子 ， 并 展示 通过 密 钥 管理 套 接 字 执行 的 若干 常见 操作 所 涉及 的 消息 
和 扩展 。 
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进程 使 用 saDB_puMP 消 息 倾 海 当 前 SADB。 它 是 最 简单 的 密 钥 管理 消息 ， 不 需要 任何 扩展 ， 
单纯 是 16 字 节 的 sadb_msg 首 部 。 一 个 进程 通过 某 个 密 钥 管理 套 接 字 发 送 一 个 saADB_DUMP 消 息 到 
内 核 后 ， 内 核 遂 过 同一 个 套 接 字 响应 以 一 系列 SapB_DUMP 消 息 ， 每 个 消息 对 应 一 个 SADB 表 项 。 
这 个 列表 的 末尾 由 saGb_msg_seq 成 员 值 为 0 的 一 个 消息 指示 。 

通过 把 请 求 消息 的 sadp_msg_satype 成 员 设 置 为 图 19-3 给 出 的 某 个 确定 值 ， 进程 可 限制 SA 
的 类 型 。 若 该 成 员 的 值 为 非 确 定 的 SaDB_sATYPE_UNSPEC 常 值 则 SADB 中 的 所 有 SA 均 返 回 。 并 
非 所 有 系统 都 支持 全 部 SA 类 型 。 KAME 实 现 仅仅 支持 IPsec 的 两 类 SA (SADB_SATYPE_AHAll 
SADB_SATYPE_ESP)， 因 此 要 是 试图 倾泻 SADB_SATYPE_RIPV2 类 型 的 SA， 将 返回 EINVAL 错 误 。 
如 果 SADB 中 没有 所 请 求 确定 类 型 的 A， 那么 将 返回 ENOENT 错 误 。 








SADB_SATYPE_AH IPsec 安全 首 
SADB_SATYPE_ESP IPsec 安全 净 荷 封装 
SADB SATYPE MIP 可 移动 IP 认 证 
SADB SATYPE OSPFV2 OSPFv2 认 证 
SADB SATYPE, RIPV2 RIPv2 认 证 
SADB SATYPE, RSVP RSVP 认 证 
SADB SATYPE, UNSPECIFIED 未 指明 ; 仅 限 于 请 求 消息 
中 
si 图 19-4 SA 类 型 
a 
514 图 19-5 给 出 了 用 于 倾泻 SADB 的 程序 。 


这 是 我 们 第 一 次 碰 到 POSIX 的 getopt 函 数 。 该 函数 的 第 三 个 参数 是 一 个 字符 串 ， 指 定 允 
许 作 为 命令 行 选项 出 现 的 字符 ， 本 例 中 为 t。 这 个 字符 后 跟 一 个 冒号 ,表示 这 个 选项 需要 一 个 
参数 。 在 允许 有 不 止 一 个 作为 命令 行 选 项 出 现 的 字符 的 程序 中 ， 这 些 字符 就 串 接 在 一 起 。 例 
如 图 29-7 所 示 程 序 中 ， 这 个 参数 是 0i:1:v， 表 示 那 个 程序 接受 4 个 选项 : i 和 1 这 两 个 选项 需 
要 参数 ，0 和 v 这 两 个 选项 不 需要 参数 。getopt 函 数 与 在 <unistd.h> 头 文件 中 定义 的 以 下 4 
个 全 局 变量 协同 工作 。 


extern char *optarg: 
extern int optind, opterr, optopt; 


在 调用 getopt 之 前 我 们 把 opterr 设 置 为 0， 以 防 发 生命 令 行 参数 与 该 函数 第 三 个 参数 不 
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匹配 等 错误 时 该 函数 把 出 错 消息 写 出 到 标准 错误 输出 , 因为 我 们 想 自 行 处 理 这 些 错误 . POSIX 
声称 把 该 函数 的 第 三 个 参数 指定 为 以 一 个 冒号 打头 也 可 以 阻止 该 函数 写 出 到 标准 错误 输出 ， 


不 过 并 非 所 有 实现 都 支持 这 一 点 。 


void 
sadb dump(int type) 


int S; 

char buf (4096); 
struct sadb msg msg; 
int goteof; 


S = Socket(PF KEY, SOCK, RAW, PF KEY V2); 


/* Build and write SADB DUMP request */ 
bzero(&msg, sizeof(msg)); 
msg.sadb msg version = PF KEY V2; 
msg.sadb msg type - SADB DUMP; 
msg.sadb msg satype - type; 
msg.sadb msg len = sizeof (msg) / 8; 
msg.sadb msg pid - getpid(); 
printf("Sending dump message: Mn"); 
print sadb msg(&msg, sizeof (msg)); 
Write(s, &msg, sizeof(msg)); 
printf£("\nMessages returned:Mn"); 

/* Read and print SADB DUMP replies until done */ 


goteof - 0; 
while (goteof == 0) { 
int msglen; 


struct sadb_msg *msgp; 
msglen = Read(s, &buf, sizeof(buf)); 
msgp = (struct sadb_msg *)&buf; 
print sadb msg(msgp, msglen) ; 
if (msgp-»sadb msg seq == 0) 
goteof - 1; 
) 
close(s); 
) 
int 
main(int argc, char **argv) 
{ 
int satype = SADB SATYPE, UNSPEC; 


int c; 
opterr - 0; /* don't want getopt() writing to stderr */ 
while ( (c = getopt(argc, argv, "t:")) !- -1) { 
switch (c) ( 
case 't': 
if ((satype - getsatypebyname(optarg)) -- -1) 
err quit("invalid -t option $s", optarg); 
break; 
Gefault: 


err quit("unrecognized option: $c", c); 
) 
J 
sadb_dump (satype) ; 


图 19-5 通过 密 钥 管理 套 接 字 发 出 SApB_DUMP 命 令 的 程序 


key/dump.c 


key/dump.c 
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打开 PF_KEY 套 接 字 
1-8 ”打开 一 个 PF_KEY 套 接 字 。 这 个 操作 需要 特定 系统 权限 ， 因 为 它 允许 访问 敏感 的 密 钥 素 
材 。 


构造 sapB_DUMP 请 求 
9-15 ” 先 清 零 sadb_msg 结 构 以 跳 过 对 那些 我 们 希望 其 保持 为 零 的 字段 的 初始 化 ， 再 单独 将 其 

余 字 段 填充 到 sadb_msg 结 构 中 。 在 以 PF_KEY_V2 为 第 三 个 参数 调用 socket 打 开 的 
PF_KEY 套 接 字 上 写 出 的 所 有 消息 必须 把 消息 版 本 都 设置 为 PF_kEY_V2。 消 息 类 型 为 
SADB_DUMP。 长 度 为 不 带 扩 展 的 基本 首部 长 度 。 我 们 还 设置 进程 ID 为 自己 的 PID， 因 为 
从 进程 到 内 核 的 所 有 消息 必须 以 发 送 者 的 PID 来 标识 。 

输出 sADB_DUMP 消 息 并 写 到 套 接 字 

16~18 ”使 用 我 们 的 print_sadb_msg 函 数 显 示 本 消息 。 我 们 不 给 出 这 个 见长 而 无 味 的 函数 , € 
包含 在 可 自由 获取 的 源 代码 中 。 它 接受 正 写 到 或 已 读 自 密 钥 管理 套 接 字 的 某 个 消息 ， 
以 直观 可 读 方式 显示 其 中 的 所 有 信息 。 我 们 接着 写 出 本 消息 到 套 接 字 。 

读 取 应 答 

19-30 ”进入 一 个 循环 逐一 读 取 每 个 应 答 ， 并 使 用 print_sadb_msg 显 示 输 出 。 倾 泻 序列 中 最 后 
一 个 消息 的 消息 序列 号 为 0， 所 以 我 们 将 其 作为 “文件 结束 ”标志 。 

关闭 PF_KEY 套 接 字 

32 ”最 后 关闭 先前 打开 的 套 接 字 。 

处 理 命令 行 参数 

38-48 main 函数 没 多 少 事 可 做 。 本 程序 取 一 个 可 选 的 命令 行 参 数 , 用 以 指定 待 倾 海 的 SA 类 型 。 
SA 类 型 默认 为 SADB_SATYPE_UNSPEC, 这 会 倾泻 所 有 类 型 的 SA。 通过 指定 命令 行 参数 ， 
用 户 可 以 选择 倾泻 哪 种 类 型 的 SA。 本 程序 使 用 我 们 的 get satypebyname Phi BLM SC AS P 
得 到 类 型 值 。 

调用 sadb_dump 函 数 

49 ”最 后 调用 刚 定义 的 saGb_dump 函 数 完成 全 部 工作 。 


运行 示例 
下 面 是 在 一 个 具有 2 个 静态 SA 的 系统 上 运行 本 倾泻 程序 的 输出 。 
macosx $ dump 


Sending dump message: 
SADB Message Dump, errno 0, satype Unspecified, seq 0, pid 20623 


Messages returned: 
SADB Message Dump, errno 0, satype IPsec AH, seq 1, pid 20623 
SA: SPI-258 Replay Window-0 State-Mature 
Authentication Algorithm: HMAC-MD5 
Encryption Algorithm: None 
[unknown extension 19] 
Current lifetime: 
0 allocations, 0 bytes 
added at Sun May 18 16:28:11 2003, never used 
Source address: 2.3.4.5/128 (IP proto 255) 
Dest address: 6.7.8.9/128 (IP proto 255) 
Authentication key, 128 bits: 0x20202020202020200202020202020202 
SADB Message Dump, errno 0, satype IPsec AH, seq 0, pid 20623 
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SA: SPI=257 Replay Window-0 State-Mature 

Authentication Aigorithm: HMAC-MD5 

Encryption Algorithm: None 

[unknown extension 19] 
Current lifetime: 

0 allocations, 0 bytes 

added at Sun May 18 16:26:24 2003, never used 
Source address: 1.2.3.4/128 (IP proto 255) 
Dest address: 5.6.7.8/128 (IP proto 255) 
Authentication key, 128 bits: 0x10101010101010100101010101010101 
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向 SADB 增 加 一 个 SA 最 直接 的 方法 是 手工 指定 所 有 参数 填写 并 发 送 一 个 sADB_ADD 消 息 。 尽 
管 手工 指定 密 钥 素材 会 导致 不 易 更 改 密 钥 (这 一 点 对 于 避免 密码 分 析 攻 击 至 关 重 要 ), 配置 起 来 
却 相当 容易 :; Alice 和 Bob 使 用 带 外 手段 达成 一 个 密 钥 和 算法 ， 然 后 使 用 它们 。 我 们 给 出 创建 和 
发 送 一 个 SaADpB_ADD 消 息 的 步骤 。 

SADB_ADD 消 息 必 需 的 扩展 有 3 种 : SA、 地 址 和 密 钥 。 可 选 的 扩展 也 有 3 种 : 生命 期 、 身 份 
和 敏感 性 。 我 们 首先 讲解 必需 的 扩展 。SA 扩 展 由 如 图 19-6 所 示 的 sadb_sa 结 构 描 述 。 





struct sadb sa { 


u.inti6 t sadb sa len; /* length of extension / 8 */ 
u intl16 t sadb sa exttype; /* SADB EXT SA */ 
u int32 t sadb sa spi; /* Security Parameters Index (SPI) */ 
u intB t sadb sa replay; /* replay window size, or zero */ 
u int8 t sadb sa state; /* SA state, see Figure 19.7 */ 
u intB t sadb sa auth; /* authentication algorithm,see Figure 19.8*/ 
u.int8, t sadb sa encrypt;  /* encryption algorithm, see Figure 19.8 */ 
u int32 t sadb sa flags; /* bitmask of flags */ 
}; 
图 19-6 SA 扩展 


sadb_sa_spi 成 员 含有 安全 参数 索引 (Security Parameters Index，SPI)。SPI 结 合 目 的 地 址 
和 所 用 协议 〈 璧 如 IPsec AH) 唯一 标识 一 个 SA。 在 接收 分 组 时 ，SPI 用 于 查找 该 分 组 的 SA;， 当 
发 送 分 组 时 ，SPI 插 入 到 分 组 中 供 对 端 使 用 。SPI 没 有 别 的 含义 ， 因 此 其 值 可 以 顺序 地 或 随机 地 
分 配 ， 也 可 以 使 用 目的 系统 首选 的 方法 进行 分 配 。sadqb_sa_replay 指 定 反 重 放 窗 口 的 大 小 。 既 
然 静 态 生 成 密 钥 无 法 反 重 放 ， 我 们 把 它 设置 为 0。?saqb_sa_state 成 员 值 在 动态 创建 的 SA 的 生 
命 周 期 内 会 发 生变 化 ， 可 取 值 如 图 19-7 所 示 。 然 而 手工 创建 的 SA 总 是 处 于 SADB_SASTATE_ 
MATURE 状 态 。 ”我 们 将 在 19.5 节 看 到 其 他 状态 。 


(D 本 书 第 3 版 新 作者 对 于 若干 概念 存在 一 些 误解 ， 这 里 是 其 中 之 一 。 反 重 放 (也 称 为 重 放 保 护 ) 与 静态 生成 密 钥 没 
有 任何 关系 。 反 重 放 是 一 个 时 效 性 相当 强 的 概念 ， 通 常情 况 下 远 小 于 密 钥 的 有 效 期 。 密 钥 的 有 效 期 可 以 设置 得 
相当 长 〈 璧 如 若干 年 )， 主 要 取决 于 密 钥 的 强度 和 同时 代 计 算 能 力 破解 密 钥 可 能 花费 的 时 间 ; 这 也 是 密 钥 可 以 通 
过 带 外 手段 静态 生成 的 理由 之 一 。 反 重 放 通 常 有 时 间 答 (timestamp) 和 现时 (nonce) 两 种 手段 。 前 者 为 每 个 分 
组 指定 一 个 到 达 时 间 窗 口 ， 不 在 该 窗口 内 到 达 的 分 组 视 为 被 重 放 的 分 组 而 丢弃 ， 条 件 是 源 和 目的 主机 时 间 基 本 
同步 。 后 者 仅 适用 于 一 对 主机 彼此 交替 发 送 分 组 的 场合 ( 警 如 事务 处 理 )， 通过 严格 锁 步 达到 反 重 放 目 的 , 源 和 
日 的 主机 时 间 无 需 同步 。 一 一 译 者 注 

O 手工 静态 创建 的 SA 和 动态 创建 的 SA 相 比 实际 上 只 缺乏 LARVAL 这 个 状态 。 一 一 译 者 注 
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| as | 
被 创建 过 程 中 
完全 形成 

软 生 命 期 结束 
硬 生命 期 结束 


图 19-7 SA 的 可 能 状态 


sadb_sa_auth 成 员 和 sadb_sa_encrypt 成 员 分 别 指定 本 SA 的 认证 算法 和 加 密 算法 ， 可 取 
值 如 图 19-8 所 示 。sadb_sa_flags 成 员 目 前 只 定义 了 一 个 标志 ， 即 SADB_SAFLAGS_PFS。 该 标志 
要 求 完备 前 向 安全 (perfect forward security), 也 就 说 这 样 的 密 钥 一 定 不 依赖 于 任何 先前 的 密 钥 
或 某 个 主 密 钥 。 该 标志 值 用 于 从 密 钥 管理 守护 进程 请 求 密 钥 的 场合 ， 增加 静态 SA 时 不 用 。 
SADB_AALG_NONE — T] 不 认证 
SADB AALG MD5HMAC HMAC-MD5-96 RFC 2403 
SADB_AALG_SHA1HMAC HMAC-SHA-1-96 RFC 2404 
SADB, EALG NONE 不 加 密 
SADB EALG DESCBRC DES-CBC 
SADB_EALG_3DESCBC 3DES-CBC 
SADB_EALG_ NULL NULL 


图 19-8 ”认证 和 加 密 算 法 


SADB_ADD 消 息 下 一 种 必需 的 扩展 是 地 址 。 分 别 由 常 值 SADB EXT ADDRESS SRCÁISADB | 
EXT_ADDRESS_DsT 指 定 的 源 地 址 与 目的 地 址 是 必需 的 ， 而 由 常 值 SADB_EXT_ADDRESS_PROXY 指 
定 的 代理 地 址 是 可 选 的 。 代 理 地 址 详 见 RFC 2367 [ McDonald, Metz, and Phan 1998]。 地 址 使 用 
如 图 1 9-9 所 示 的 sadb_adaress 扩 展 所 指定 e 该 结构 的 saGb_address_exttype 成 员 确定 本 地 址 
的 上 述 类 别 。saqb_aGdress_proto 成 员 指定 本 SA 有 待 匹 配 的 IP 协 议 ， 若 为 0 则 匹配 所 有 协议 。 
sadb_adqress_prefixlen 成 员 给 出 本 地 址 的 有 效 位 数 ， 这 样 单 个 SA 可 以 匹配 多 个 地 址 。 
saGb_address 结 构 后 跟 合适 地 址 族 的 sockaaar 结 构 〔 例如 sockadadar_in 或 sockadar_ in6)。 
sockaddr 中 的 端口 仅 在 sadb_address_proto 指 定 的 协议 支持 端口 号 的 前 提 下 (例如 
IPPROTO_TCP) 才 有 效 。 












SADB_SASTATE_LARVAL 
SADB SASTATE, MATURE 
SADB SASTATE DYING 













SADB SASTATE DEAD 





























RFC 2405 
RFC 1851 
RFC 2410 









struct sadb address { 


u intl16 t sadb address len; /* length of extension + address / 8 */ 
u intl16 t sadb address, exttype; /* SADB EXT, ADDRESS, (SRC, DST, PROXY} e 
u int8 t  sadb address, proto; /* IP protocol, or 0 for all */ 

u int8 t sadb address prefixlen; /* 4 significant bits in address */ 


u inti6 t sadb address reserved; /* reserved for extension */ 
}; 
/* followed by appropriate sockaddr */ 














图 19-9 地址 扩展 


SADB_ADD 消 息 最 后 一 种 必需 的 扩展 是 认证 和 加 密 密 钥 ， 分 别 由 常 值 SaDB_EXT_KEY_AUTH 
和 SADB_EXT_KEY_ENCRYPT 指 定 ， 由 如 图 19-10 所 示 的 sadb_key 结 构 描 述 。 其 中 sadb_key_ 
exttype 成 员 定义 本 密 钥 是 认证 密 钥 还 是 加 密 密 钥 ， sadb_key_pbits 成 员 指 定 本 密 钥 的 位 数 ， 
密 钥 本 身 则 紧 跟 在 saGb_key 结 构 之 后 。 
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struct sadb key ( 


u .intl6 t sadb key len; /* length of extension + key / 8 */ 
u intl16 t sadb key. exttype; /* SADB EXT KEY (AUTH,ENCRYPT) */ 
u int16 t sadb key bits; /* # bits in key */ 

u_inti6_t sadb key reserved; /* xeserved for extension */ 


/* followed by key data */ 








图 19-10 EHF RR 

图 19-11 给 出 了 增加 -- 个 静态 SADB 表 项 的 程序 代码 。 
key/add.c 

33 void 
34 sadb add(struct sockaddr *src, struct sockaddr *dst, int type, int alg, 
35 int spi, int keybits, unsigned char *keydata) 
36 ( 
37 int S; 
38 char buf(4096], *p; /* XXX */ 
39 struct sadb msg *msg; 
40 struct sadb sa *saext; 
41 struct sadb address *addrext; 
42 struct sadb key *keyext; 
43 int len; 
44 int mypid; 
45 s - Socket(PF KEY, SOCK RAW, PF KEY V2); 
46 mypid = getpid(); 
47 /* Build and write SADB_ADD request */ 
48 bzero(&buf, sizeof (buf) ); 
49 p = buf; 
50 msg = (struct sadb msg *)p; 
51 msg-»sadb msg version = PF. KEY V2; 
52 msg-»sadb msg type = SADB ADD; 
53 msg-»sadb msg satype = type; 
54 msg-»sadb msg pid = getpid(); 
55 len = sizecf(*msg); 
56 p += sizeof(*msg); 
57 saext = (struct sadb sa *)p; 
58 saext-»sadb sa len = sizeof(*saext) / 8; 
59 saext-»sadb sa exttype = SADH EXT. SA; 
60 Saext-»sadb, sa spi = htonl(spi); 
61 Ssaext-»sadb sa replay = 0; /* no replay protection with static keys */ 
62 saext-»sadb sa state = SADB SASTATE MATURE; 
63 Saext-»sadb sa auth = alg; 
64 saext-»sadb sa encrypt = SADB EALG, NONE; 
65 saext-»sadb sa flags - 0; 
66 len «- saext-»sadb sa len * 8; 
67 p += saext-»5sadb sa len * 8; 
68 addrext - (struct sadb address *)p; 
69 addrext-»sadb address len = (sizeof(*addrext) + salen(src) + 7) / 8; 
70 addrext-»sadb address exttype = SADB EXT ADDRESS, SRC; 
71 addrext-»sadb address proto = 0; /* any protocol */ 
72 addrext-»sadb address prefixlen = prefix all(src); 


73 addrext-»sadb, address, reserved = 0; 





图 19-11 通过 密 钥 管理 套 接 字 发 出 SADB_ADD 命 令 的 程序 
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memcpy (addrext + 1, src, salen(src)); 
len += addrext-»sadb address len * 8; 
p += addrext-»sadb address len * 8; 


addrext - (struct sadb address *)p; 

addrext-»sadb address len = (sizeof(*addrext) + salen(dst) + 7) / 8; 
addrext-»sadb address exttype = SADB EXT ADDRESS DST; 

addrext-»sadb address proto = 0; /* any protocol */ 
addrext-»sadb address prefixlen = prefix all(dst); 
addrext-»sadb address reserved = 0; 

memcpy (addrext + 1, dst, salen(dst)); 

len += addrext-»sadb address, len * 8; 

p *- addrext-»sadb address len * 8; 


keyext - (struct sadb key *)p; 

/* "+7" handles alignment requirements */ 

keyext-»sadb key len = (sizeof(*keyext) + (keybits / 8) + 7) / 8; 
keyext-»sadb key exttype = SADB EXT, KEY AUTH; 
keyext-»-sadb key bits = keybits; 

keyext-»sadb key reserved = 0; 

memcpy (keyext + 1, keydata, keybits / 8); 

len += keyext-»-sadb key len * 8; 

p += keyext-»sadb key len * 8; 


msg-»sadb msg len = len / 8; 
printf ("Sending add message: Mn"); 
print sadb msg(buf, len); 
Write(s, buf, len); 


printf ("\nReply returned: \n"); 
/* Read and print SADB_ADD reply, discarding any others */ 
for (37) { 

int msglen; 

struct sadb msg *msgp; 


msglen = Read(s, &bul, sizeof (buf)); 
msgp = (struct sadb msg *)&buf; 
if (msgp-»sadb msg pid == mypid && msgp-»sadb msg type == SADB ADD) 
print, sadb msg(msgp, msglen); 
break; 
} 
} 
close(s); 


图 19-11 GE) 


打开 PF_KEY 套 接 字 并 保存 PID 

55-56 打开 一 个 PF_KEY 套 接 字 ， 保 存 我 们 的 PID 供 以 后 使 用 。 

构造 SADB_ADD 消 息 首 部 

55-56 ”构造 一 个 普通 的 SADB_ADD 消 息 首部 。 直 到 写 出 本 消息 之 前 再 设置 sadb_msg_len 成 员 ， 
以 便 确切 反映 整个 消息 的 长 度 。1en 变 量 追 踪 本 消息 的 当前 长 度 ， 而 p 指 针 总 是 缓冲 区 
中 第 一 个 未 用 的 字 节 。 


添加 SA 扩展 


key/add.c 


57-67 ” 接 下 来 我 们 要 添加 必需 的 SA 扩展 (图 19-6)。saGb_sa_spi 必 须 以 网 络 字 节 序 存放 ， 
htonl 用 于 把 作为 本 函数 的 参数 传 入 的 主机 字 节 序 的 SPI 值 转换 成 网 络 字 节 序 。 关 掉 重 
放 保 护 ， 把 SA 状态 设置 为 SADB_SASTATE_MATURE。 把 认证 算法 设置 为 通过 命令 行 参 
数 指定 的 算法 ， 加 密 算法 则 设置 为 SADB_EALG_NONE。 
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添加 源 地 址 
68-76 ”将 源 地 址 以 SADB_EXT_ADDRESS_SRC 扩 展 的 形式 添加 到 本 消息 。 协议 值 被 置 为 0, 表示 
本 SA 适用 于 所 有 协议 。 前 缀 长 度 被 置 为 相应 IP 版 本 的 地 址 长 度 ， 对 于 IPv4 为 32 位 ， 对 
于 IPv6 为 128 位 。 长 度 字 段 的 计算 是 先 加 7 再 除 以 8， 以 确保 反映 出 按 64 位 边界 填充 后 
的 长 度 。 把 sockadar 结 构 复 制 到 本 扩展 首部 紧 后 。 
添加 目的 地 址 
77-85 目的 地 址 按照 与 源 地 址 一 样 的 方式 以 SapB_EXT_ADDRESS_DsT 扩 展 的 形式 添加 到 本 
消息 。 
添加 认证 密 钥 
86~94 ”以 SADB_EXT_KEY_AUTH 扩 展 的 形式 添加 认证 密 钥 。 长 度 字 段 计 算 与 添加 源 地 址 一 样 。 
设置 好 密 钥 位 数 后 把 密 钥 数据 复制 到 本 扩展 首部 紧 后 。 


写 出 本 消息 
95-98 ”调用 print_saGb_msg 函 数 显 示 本 消息 后 把 它 写 出 到 套 接 字 。 
读 取 应 答 
99-111 ” 读 取 来 自 套 接 字 的 应 答 ， 和 寻找 PID 与 本 进程 一 致 的 SADB_ADD 消 息 。 调 用 print_sadb_ 
msg 函 数 显示 该 消息 后 退出 。 
运行 示例 


运行 本 程序 ， 发 送 saDB_ADD 消 息 为 127.0.0.1 和 127.0.0.1 之 间 的 分 组 流通 增设 一 个 SA。 


macosx $ add 127.0.0.1 127.0.0.1 HMAC SHA-1-96 160 \ 
0123456789abcdef0123456789abcdef01234567 
Sending add message: 
SADB Message Add, errno 0, satype IPsec AH, seq 0, pid 6246 
SA: SPI-39030 Replay Window-0 State-Mature 
Authentication Algorithm: HMAC-SHA-1 
Encryption Algorithm: None 
Source address: 127.0.0.1/32 
Dest address: 127.0.0.1/32 
Authentication key, 160 bits: 0x0123456789abcdef0123456789abcdef01234567 


Reply returned: 
SADB Message Add, errno 0, satype IPsec AH, seq 0, pid 6246 
SA: SPI-39030 Replay Window-0 State-Mature 
Authentication Algorithm: HMAC-SHA-1 
Encryption Algorithm: None 
Source address: 127.0.0.1/32 
Dest address: 127.0.0.1/32 


注意 作为 请 求 消息 的 回 射 的 应 答 消 息 没 有 给 出 密 钥 内 容 。 这 么 做 是 因为 应 答 消 息 被 发 送 到 
所 有 PF_KEY 套 接 字 ， 然 而 不 同 的 套 接 字 可 能 属于 不 同 的 保护 域 ， 密 钥 数 据 不 应 该 跨越 保护 域 。 
把 这 个 SA 添加 到 SADB 之 后 ， 我 们 对 127.0.0.1 执 行 ping 命 令 以 促使 该 SA 被 用 上 ， 然 后 倾泻 出 
SADB 以 检查 所 添加 的 SA。 


macosx $ dump 

Sending dump message: 

SADB Message Dump, errno 0, satype Unspecified, seq 0, pid 6283 
Messages returned: 


SADB Message Dump, errno 0, satype IPsec AH, seq 0, pid 6283 
SA: SPI=39030 Replay Window=0 State=Mature 


we 
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Authentication Algorithm: HMAC-SHA-1 

Encryption Algorithm: None 

[unknown extension 19] 
Current lifetime: 

36 allocations, 0 bytes 

added at Thu Jun 5 21:01:31 2003, first used at Thu Jun 5 21:15:07 2003 
Source address: 127.0.0.1/128 (IP proto 255) 

Dest address: 127.0.0.1/128 (IP proto 255) 

Authentication key, 160 bits: 0x0123456789abcdef0123456789abcdef01234567 


从 倾泻 出 的 结果 可 以 看 到 ， 内 核 把 我 们 的 IP 协 议 由 0 改 为 255。 这 是 本 实现 的 一 个 特征 〈 实 
际 上 是 一 个 缺陷 )， 而 并 非 PF_KEY 套 接 字 的 普遍 特征 。 此 外 我 们 看 到 内 核 把 前 级 长 度 由 32 改 为 
128〔 本 实现 的 另 一 个 缺陷 )。 它 看 似 由 内 核 混淆 IPv4 和 IPv6 地 址 引起 。 内 核 还 返回 一 个 我 们 的 
倾泻 程序 不 认识 的 扩展 (编号 为 19)。 不 认识 的 扩展 利用 它 的 长 度 字 段 跳 过 。 所 返回 的 生命 期 扩 
展 ( 图 19-12) 含有 本 SA 的 当前 生命 期 信息 。 





struct sadb lifetime ( 





u intl6 t sadb lifetime len; /* length of extension / 8 */ 
u intl16 t sadb lifetime exttype; /* SADB EXT LIFETIME (SOFT,HARD,CURRENT) */ 
u int32 t sadb lifetime allocations; /* # connections, endpoints, or flows */ 
u int64 t sadb lifetime bytes; /* # bytes */ 
u int64 t sadb lifetime addtime; /* time of creation, or time from 
creation to expiration */ 
u int64 t sadb lifetime usetime; /* time frist used, or time from 


first use to expiration */ 





图 19-12 ”生命 期 扩展 


生命 期 扩展 共有 3 个 类 型 。SaADB_LIFETIME_SOFT 和 SaADB_LIFETIME_HARD 这 两 个 扩展 分 别 
指定 一 个 SA 的 软 生 命 期 和 硬 生 命 期 。 当 软 生命 期 结束 时 ， 内 核发 送 一 个 SADB_EXPIRE 消 息 ; 当 
硬 生命 期 结束 后 ， 该 SA 不 能 再 用 。 用 于 指出 相应 SA 当前 生命 期 的 SADB_LIFETIMFE_CURRENT 扩 
展 在 以 下 响应 消息 中 返回 : SADB_DUMP、SADB_EXPIRE 和 SADB_GET。 


周期 性 地 重新 产生 密 钥 有 助 于 进一步 提高 安全 性 。 这 种 操作 通常 由 诸如 IKE (RFC 2409 
[ Harkins and Carrel 1998 ]). 之 类 协议 执行 。 


编写 本 书 时 IETF IPsec 工作 组 正在 规范 IKE 的 一 个 替代 协议 。 


为 了 获悉 何 时 需要 为 一 对 主机 提供 新 的 SA, 密 钥 管理 守护 进程 应 预先 使 用 SADB_REGISTER 
请 求 消息 向 内 核 注 册 自 身 ， 其 中 的 sadb_msg_satype 成 员 会 指出 所 能 处 理 的 SA 类 型 。 如 果 守 护 
进程 能 够 处 理 多 个 SA 类 型 ， 它 就 为 其 中 每 个 类 型 发 送 一 个 SADB_REGISTER 请 求 消息 。 在 相应 的 
SADB_REGISTER 应 答 消息 中 ， 内 核 提 供 一 个 受 支 持 算法 扩展 ， 指 出 哪些 加 密 和 /或 认证 机 制 及 密 
钥 长 度 得 到 支持 。 受 支持 算法 扩展 由 如 图 19-13 所 示 的 sadb_supported 结 构 描 述 ， 紧 跟 该 扩展 
首部 的 是 以 一 系列 sadb_alg 结 构 形 式 给 出 的 加 密 或 认证 算法 描述 。 

sadb_supporte6 扩 展 首部 之 后 出 现 的 每 个 sadb_alg 结 构 代 表 系 统 支 持 的 一 个 算法 。 图 
19-14 给 出 了 对 于 某 个 注册 处 理 SA 类 型 为 SADB_SATYPE_ESP 的 SADB_REGISTER 请 求 的 一 个 可 能 
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struct sadb supported ( 


u int16 t sadb supported len; /* length of extension « algorithms / 8 */ 
u intl6 t sadb supported exttype; /* SADB EXT SUPPORTED, (AUTH,ENCRYPT) */ 
u int32 t sadb supported reserved; /* reserved for future expansion */ 


}; 
/* followed by algorithm list */ 
struct sadb alg { 


u int8 t sadb alg id; /* algorithm ID from Figure 19.8 */ 
u int8 t sadb alg ivlen; /* IV length, or zero */ 
u intl6 t sadb alg minbits; /* minimum key length */ 
u intl16 t sadb alg maxbits; /* maximum key length */ 
u intl16 t sadb alg reserved; /* reserved for future expansion */ 


}; 





图 19-13” 受 支持 算法 扩展 


sadb msg() 


sadb msg() 


sadb msg len 
sadb msg type = 
SADB REGISTER 


sadb msg type - 
SADB REGISTER 





sadb supported() 


sadb supported exttype - 
SADB EXT SUPPORTED AUTH 


sadb alg() 
sadb alg id - 
SADB AALG MDSHMAC 
ivlen = 0 m 
minbits = 128 supported, 
maxbits - 128 len 


sadb alg() 
sadb alg id - 
SADB AALG SHA1HMAC 
ivlen = 0 
minbits = 192 


maxbits - 192 
sadb msg len 


sadb supported() 


sadb supported exttype - 
SADB EXT SUPPORTED ENCRYPT 


sadb alg() 
sadb alg id - 
SADB EALG DES 

ivlen - 8 
minbits - 64 
maxbits - 64 


sadb alg() 
sadb alg id « 
SADB EALG 3DES 

ivlen = 8 
minbits = 192 
maxbits = 192 


sadb alg() 
sadb alg id - 
SADB EALG NULL 

ivlen = 0 
minbits = 0 
maxbits = 2048 


图 19-14 内核 为 SADB_REGISTER 请 求 返回 的 应 答 


sadb 
supported 
len 





524 
i 
525 
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19-15 给 出 的 程序 使 用 SsADB_REGISTER 请 求 向 内 核 注 册 自 身 进程 , 然后 显示 内 核 在 应 答 中 








返回 的 受 支 持 算法 列表 。 

1 void 

2 sadb register(int type) 

3t 

4 int S; 

5 char buf (4096] ; /* XXX */ 

6 struct sadb msg msg; 

7 int goteof; 

8 int mypid; 

9 S = Socket(PF KEY, SOCK RAW, PF, KEY. V2); 

10 mypid - getpid(); 

11 /* Build and write SADB REGISTER request */ 

12 bzero(&msg, sizeof (msg)); 

13 msg.sadb msg version = PF KEY V2; 

14 msg.sadb msg type - SADB REGISTER; 

15 msg.sadb msg satype - type; 

16 msg.sadb msg len - sizeof(msg) / 8; 

17 msg.sadb msg pid = mypid; 

18 printf ("Sending register message:Mn"); 

19 print, sadb msg(&msg, sizeof (msq)); 

20 Write(s, &msg, sizeof(msg)); 

21 printf£("\nReply returned: Mn"); 

22 /* Read and print SADB_REGISTER reply, discarding any others */ 

23 for (373) { 

24 int msglen; 

25 struct sadb_msg *msgp; 

26 msglen = Read(s, &buf, sizeof (buf)); 

27 msgp = (struct sadb msg *)&buf; 

28 if (msgp-»sadb msg pid == mypid && 

29 msgp-»sadb msg type == SADB REGISTER) { 

30 print sadb msg(msgp, msglen); 

31 break; 

32 ) 

33 } 

34 close(s); 

35 } 

图 19-15 ”通过 密 钥 管理 套 接 字 注 册 进 程 的 程序 

打开 PF_KEY 套 接 字 


1~9 打开 一 个 PF_KEY 套 接 字 。 


保存 PID 


10 ”既然 应 答 消 息 将 使 用 我 们 的 PID 寻 址 ， 我 们 保存 自己 的 PID 供 以 后 比较 用 。 
构造 SADB_REGISTER 消 息 
11-17 ” 像 SADB_DUMP 请 求 消息 一 样 ，SADB_REGISTER 请 求 消息 也 不 需要 任何 扩展 。 清 零 该 消 
息 后 填写 所 需 的 成 员 即 可 。 
显示 消息 并 写 出 到 套 接 字 
18-20 ”使 用 print_sadb_msg 函 数 显示 刚 构造 的 消息 ， 并 把 它 写 出 到 套 接 字 。 


key/register.c 


key/register.c 


等 待 应 答 
23-33 ”从 套 接 字 读 入 消息 ， 找 出 与 我 们 的 注册 请 求 消息 对 应 的 应 答 消 息 。 该 应 答 消 息 是 一 个 
PID 值 为 本 进程 PID 的 SADB_REGISTER 消 息 ， 其 中 含有 一 个 受 支 持 算 法 的 列表 ， 全 部 由 
print_sadb_msg 函 数 显 示 输 出 。 
运行 示例 
我 们 在 一 个 不 仅仅 支持 RFC 2367 中 规定 协议 的 系统 上 运行 register 程 序 。 
macosx % register -t ah 


Sending register message: 
SADB Message Register, errno 0, satype IPsec AH, seq 0, pid 20746 


Reply returned: 

SADB Message Register, errno 0, satype IPsec AH, seq 0, pid 20746 
Supported authentication algorithms: 
HMAC-MD5 ivlen 0 bits 128-128 
HMAC-SHA-1 ivlen 0 bits 160-160 
Keyed MD5 ivlen 0 bits 128-128 
Keyed SHA-1 ivlen 0 bits 160-160 
Null ivien 0 bits 0-2048 
SHA2-256 ivlen 0 bits 256-256 
SHA2-384 ivlen 0 bits 384-384 
SHA2-512 ivlen 0 bits 512-512 
Supported encryption algorithms: 
DES-CBC ivlen 8 bits 64-64 
3DES-CBC ivlen 8 bits 192-192 
Nuil ivlen 0 bits 0-2048 
Blowfish-CBC ivlen 8 bits 40-448 
CAST128-CBC ivlen 8 bits 40-128 
AES ivlen 16 bits 128-256 


当 内 核 需 与 某 个 目的 地 址 通信 时 , 如 果 根 据 策略 该 单身 分 组 流 必须 经 由 一 个 SA 而 内 核 却 并 
没有 一 个 SA 可 用 , 内 核 就 向 注册 了 所 需 SA 类 型 的 密 钥 管理 套 接 字 发 送 一 个 saADB_ACEUIRE 消 息 ， 
其 中 含有 一 个 描述 内 核 所 提议 算法 及 密 钥 长 度 的 提议 扩展 。 该 提议 可 能 综合 了 系统 支持 的 配置 
与 限制 该 单 向 分 组 流 的 预 配置 策略 。 提 议 内 容 是 一 个 由 算法 、 密 钥 长 度 和 生命 期 构成 的 按照 优 
选 顺 序 排列 的 列表 。 当 一 个 密 钥 管理 守护 进程 收 到 一 个 sADB_ACQUIRE 消 息 之 后 , 它 执 行 必 要 的 
操作 以 选择 一 个 符合 内 核 之 提议 的 密 钥 ， 再 把 该 密 钥 安装 到 内 核 中 。 它 使 用 saDB_GETSPI 消 息 
请 求 内 核 从 一 个 期 望 的 范围 内 选择 一 个 SPI。 内 核对 于 该 SADB_GETSPI 消 息 的 响应 包括 建立 一 个 
处 于 幼虫 〈larval) 状态 的 SA。 然 后 守护 进程 使 用 由 内 核 提 供 的 这 个 SPI 与 远 端 协商 安全 参数 ， 
接着 使 用 sapB_UPDATE 更 新 该 SA， 使 它 进 入 成 熟 (nature) 状态 。 动 态 创建 的 SA 通常 还 有 关联 
的 软 生 命 期 和 硬 生命 期 。 当 任何 一 个 生命 期 结束 时 ， 内 核 将 发 送 一 个 SADB_EXPIRE 消 息 ， 其 中 
指出 期 满 的 是 软 生命 期 还 是 硬 生命 期 。 如 果 软 生命 期 结束 ， 其 SA 就 进入 垂死 (dying) 状态 ， 期 
间 它 仍然 可 以 使 用 ， 不 过 内 核 应 该 为 它 获 取 一 个 新 的 SA。 如 果 硬 生命 期 结束 ， 其 SA 就 进入 死亡 
(dead) 状态 ， 这 种 状态 的 SA 不 能 继续 使 用 ， 必 须 从 SADB 中 删除 。 


19.6 小 结 





密 钥 管理 套 接 字 用 于 在 内 核 、 密 钥 管理 守护 进程 以 及 诸如 路 由 守护 进程 等 安全 服务 消费 进 
程 之 间 交 换 SA。SA 既 可 以 手工 静态 安装 ， 也 可 以 使 用 密 钥 协商 协议 自动 动态 安装 。 动 态 密 铀 有 
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关联 的 生命 期 。 当 软 生命 期 结束 时 ， 密 钥 管 理 守护 进程 得 到 通知 。 这 样 的 SA 如 果 在 硬 生命 期 结 
束 前 未 被 新 的 SA 替换 ， 那 就 不 能 再 使 用 。 

进程 和 内 核 通 过 密 钥 管理 套 接 字 交 换 的 消息 共有 10 个 类 型 .每 个 消息 类 型 都 有 关联 的 扩展 ， 
有 的 是 必需 的 ， 有 的 是 可 选 的 。 每 个 由 进程 发 送 的 消息 被 内 核 回 射 到 所 有 其 他 打开 着 的 密 钥 管 
理 套 接 字 ， 不 过 任何 含有 敏感 数据 的 扩展 会 被 抹 除 。 


19.1 编写 一 个 程序 ， 打 开 一 个 PF_KEY 套 接 字 后 显示 从 中 收取 的 所 有 消息 ? 
19.2 访问 IETF IPsec 工 作 组 的 网 页 http://www.ietf.org/html.charters/ipsec-charter.html， 找 出 由 该 工作 组 创建 
的 用 于 替换 IKE 的 新 协议 。 
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20.1 概述 n 


我 们 将 在 本 章 和 下 一 章 分 别 介绍 广播 Cbroadcasting) 81$ 4& (multicasting). ABIES 79 
止 的 所 有 的 例子 处 理 的 都 是 单 播 (unicasting): 一 个 进程 就 与 另 一 个 进程 通信 。 实 际 .上 TCP 只 支 
持 单 播 寻 址 ， 而 UDP 和 原始 耻 还 支持 其 他 寻 址 类 型 。 图 20-1 比 较 了 不 同类 型 的 寻 址 方式 。 
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图 20-1 不 同 的 寻 址 方式 


IPv6 往 寻 址 体系 结构 中 增加 了 任 播 (anycasting) 方式 。RFC 1546 [Partridge, Mendez, and 
Milliken 1993] 讲述 了 一 个 IPv4 任 播 版 本 ， 它 从 未 广泛 部 署 过 。IPv6 任 播 则 定义 在 RFC 3513 
[Hinden and Deering 2003] 中 。 任 播 允许 从 一 组 通常 提供 相同 服务 的 主机 中 选择 一 个 (一 般 是 
选择 按 某 种 测度 而 言 离 源 主机 最 近 的 )。 通 过 适当 地 配置 路 由 , 并 在 多 个 位 置 往 路 由 协议 中 注入 
同一 个 地 址 ， 多 个 IPv4 或 IPv6 主 机 可 以 提供 该 地 址 的 任 播 服务 。 然 而 RFC 3513 的 任 播 只 允许 路 
由 器 拥有 任 播 地 址 ， 主 机 可 能 无 法 提供 任 播 服务 。 编 写本 书 时 还 没有 使 用 任 播 地 址 的 API 可 用 。 
细 化 IPv6 任 播 体系 结构 的 工作 仍 在 进展 之 中 ， 将 来 的 主机 也 许 能 够 动态 地 提供 任 播 服 务 。 
图 20-1 中 的 要 点 是 : 
e 多 播 支持 在 IPv4 中 是 可 选 的 ， 在 IPv6 中 却 是 必需 的 ;， — 
e IPv6 不 支持 广播 。 使 用 广播 的 任何 IPv4 应 用 程序 一 旦 移植 到 IPv6 就 必须 改 用 多 播 重新 编写 ; 
e 广播 和 多 播 要 求 用 于 UDP 或 原始 PP， 它 们 不 能 用 于 TCP。 
广播 的 用 途 之 一 是 在 本 地 子 网 定位 一 个 服务 器 主机 ， 前 提 是 已 知 或 认定 这 个 服务 器 主机 位 
于 本 地 子 网 ， 但 是 不 知道 它 的 单 播 让 地 址 。 这 种 操作 也 称 为 资源 发 现 (resource discovery)。 另 
一 个 用 途 是 在 有 多 个 客户 主机 与 单个 服务 器 主机 通信 的 局 域 网 环境 中 尽量 减少 分 组 流通 。 出 于 
这 个 目的 使 用 广播 的 因特网 应 用 有 多 个 例子 。 
e ARP (Address Resolution Protocol， 地 址 解析 协议 )。ARP 并 不 是 一 个 用 户 应 用 ， 而 是 IPv4 
的 基本 组 成 部 分 之 一 。 ARP 在 本 地 子 网 上 广播 一 个 请 求 说 “IP 地 址 为 a.b.c.d 的 系统 亮 明 身 
份 ， 告 诉 我 你 的 硬件 地 址 >。ARP 使 用 链 路 层 广 播 而 不 是 下层 广播 。 

e DHCP (Dynamic Host Configration Protocol， 动 态 主机 配置 协议 )。 在 认定 本 地 子 网 上 有 
一 个 DHCP 服 务 器 主机 或 中 继 主 机 的 前 提 下 ，DHCP 客 户主 机 向 广播 地 址 〈 通 常 是 
255.255.255.255， 因 为 客户 还 不 知道 自己 的 IP 地 址 、 子 网 掩 码 以 及 本 子 网 的 受 限 广播 地 
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tk) 发 送 自己 的 请 求 。 
e NTP (Network Time Protocol， 网 络 时 间 协 议 )。NTP 的 一 种 常见 使 用 情形 是 客户 主机 配 
置 上 待 使 用 的 一 个 或 多 个 服务 器 主机 的 IP 地 址 ， 然 后 以 某 个 频 度 〈 每 隔 64 秒 钟 或 更 长 时 
间 一 次 ) 轮 询 这 些 服务 器 主机 。 根据 由 服务 器 返 送 的 当前 时 间 和 到 达 服 务 器 主机 的 RTT， 
客户 使 用 精妙 的 算法 更 新 本 地 时 钟 。 然 而 在 一 个 广播 局 域 网 上 ， 服 务 器 主机 却 可 以 为 本 
地 子 网 上 的 所 有 客户 主机 每 隔 64 秒 钟 广 播 一 次 当前 时 间 ， 免 得 每 个 客户 主机 各 自 轮 询 这 
个 服务 器 主机 ， 从 而 减少 网 络 分 组 流通 量 。 
e 路 由 守护 进程 。routed 是 最 早 实现 且 最 常用 的 路 由 守护 进程 之 一 ， 它 在 一 个 局 域 网 上 广 
播 自己 的 路 由 表 。 这 么 一 来 连接 到 该 局 域 网 上 的 所 有 其 他 路 由 器 都 可 以 接收 这 些 路 由 通 
告 ， 而 无 须 事先 为 每 个 路 由 器 配置 其 邻居 路 由 器 的 下 地 址 。 这 个 特性 也 能 被 该 局 域 网 上 
的 主机 用 于 监听 这 些 路 由 通告 , 并 相应 地 更 新 各 自 的 路 由 表 。RIP 第 2 版 既 允 许 使 用 多 播 ， 
也 允许 使 用 广播 。 
我 们 必须 指出 ， 多 播 可 以 顶替 广播 的 上 述 两 个 用 途 (资源 发 现 和 减少 网 络 分 组 流通 )。 我们 
将 在 本 章 靠 后 的 内 容 和 下 一 章 中 阐述 广播 存在 的 问题 。?” 
20.2 广播 地 址 
我 们 可 以 使 用 记 法 { 子 网 ID， 主 机 ID} 表 示 一 个 IPv4 地 址 ， 其 中 子 网 儿 表 示 由 子 网 掩 码 (或 
CIDR 前 级 〉 覆盖 的 连续 位 ， 主 机 ID 表示 以 外 的 位 。 如 此 表示 的 广播 地 址 有 以 下 两 种 ， 其 中 -1 
表示 所 有 位 均 为 1 的 字段 。 
(1) 子 网 定向 广播 地 址 : { 子 网 ID，-1}。 作 为 指定 子 网 上 所 有 接口 的 广播 地 址 。 举 例 来 说 ， 
如 果 我 们 有 一 个 192.168.42/24 子 网 ， 那 么 192.168.42.255 就 是 该 子 网 上 所 有 接口 的 子 网 定向 广播 
地 址 。 


通常 情况 下 路 由 器 不 转发 这 种 广播 (TCPv2 第 226 一 227 页 )。 图 20-2 展 示 了 连接 子 网 
192.168.42/24 和 192.168.123/24 的 一 个 路 由 器 。 





子 网 192.168.42 


192.168.123.33 


网 192.168.123 





( 单 播 数据 报 ) 
图 20-2 ”路 由 器 转发 了 网 定向 广播 分 组 吗 ? 


CD 广播 可 以 减少 局 域 网 由 的 分 组 流通 ， 与 无 盘 系统 之 问 却 存在 一 个 不 合 需要 的 交互 问题 。 假 设 一 个 NTP 服 务 器 主 
机 每 陋 64 秒 钟 广播 一 次 当前 时 间 。 如 果 在 此 期 间 所 有 无 盘 客 户主 机 上 的 NTP 守 护 进程 被 换 出 主 存 ， 那 么 当 它 们 
每 隔 64 秒 钟 收 到 一 个 NTP 数 据 报时 ， 操 作 系 统 将 立刻 从 也 在 该 局 域 网 上 的 磁盘 服务 器 主机 把 NTP 守 护 进 程 读 回 
主 存 。 这 么 一 来 ， 因 无 盘 客 户主 机 周期 性 地 把 NTP 守 护 进程 通过 网 络 换 入 主 存 而 造成 局 域 网 上 每 隔 64 秒 钟 就 出 
现 .… 次 分 组 涌流 。 幸 运 的 是 随 着 磁盘 驱动 器 价格 的 -路 走低 ， 无 盘 系 统 几 乎 已 经 绝迹 。 一 一 译 者 注 
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路 由 器 在 子 网 192.168.123/24 上 收 到 一 个 目的 地 址 为 192.168.42.255〈 男 一 个 接口 的 子 网 定 
向 广播 地 址 ) 的 一 个 单 播 卫 数据 报 。 路 由 器 通常 情况 下 不 把 这 个 数据 报 转 发 到 子 网 
192.168.42/24。 有 些 系统 提供 一 个 允许 转发 子 网 定向 广播 数据 报 的 配置 选项 〈TCPv1 附 录 E)。 


转发 子 网 定向 广播 分 组 反而 能 够 促成 称 为 放大 攻击 (amplification ) 的 一 类 拒绝 服务 攻击 ， 
例如 往 一 个 子 网 定向 广播 地 址 发 送 ICMP echo 请 求 将 造成 有 多 个 应 答 发 送 给 那个 受害 系统 .再 
加 上 一 个 伪造 的 源 地址 ， 会 导致 针对 该 系统 的 带宽 利用 攻击 ， 所 以 最 好 将 该 配置 选项 关闭 、 

由 于 这 个 原因 ， 最 好 不 要 设计 依赖 子 网 定向 广播 数据 报 之 转发 的 应 用 程序 ， 除 非 是 在 可 
以 安全 地 开启 该 选项 的 受 控 环 境 中 . 


(2) 受 限 广播 地 址 : (71. 一 1} 或 255.255.255.255。 路 由 器 从 不 转发 目的 地 址 为 255.255.255.255 
的 IP 数 据 报 。 


诸如 BOOTP 和 DHCP 等 应 用 在 自 举 过 程 中 把 255.255.255.255 用 作 目 的 地 址 ， 因 为 此 时 客 
户主 机 还 不 知道 服务 器 主机 的 IP 地 址 。 

问题 是 : 当 应 用 进程 发 送 一 个 目的 地 址 为 255.255.255.255 的 UDP 数 据 报 时 主机 怎么 做 ? 
大 多 数 主机 允许 发 送 这 种 广播 数据 报 ( 假设 进程 已 经 设置 了 SO_BROADCAST 套 接 字 选 项 ) ， 
并 把 该 目的 地 址 转换 成 外 出 接口 的 子 网 定向 广播 地 址 。BSD/OS 3.0 有 一 个 名 为 
IP_ONESBCAST 的 套 接 字 选 项 , 一 旦 开启 就 不 论调 用 sendto 指 定 的 目的 地 址 是 子 网 定向 广播 地 
址 还 是 受 限 广 播 地 址 一 律 由 内 核 设置 为 235.255.255.255。 

另 一 个 问题 是 : 当 应 用 进程 发 送 一 个 目的 地 址 为 255.255.255.255 的 UDP 数 据 报时 多 目的 
主机 怎么 做 ?有 些 系 统 只 在 主 接口 (第 一 个 被 配置 的 接口 ) 上 发 送 单 个 广播 分 组 ， 其 中 的 目 
的 地 址 被 置 为 该 接口 的 子 网 定向 广播 地 址 (TCPv2 第 736 页 ) 。 其 他 系统 却 在 每 个 具备 广播 能 
力 的 接口 上 发 送 一 个 该 数据 报 的 副本 ,RFC 1122 [ Braden 1989 ] 的 3.3.6 节 对 于 本 问题 “taking 
no stand” (未 作 规定 ) 。 然 而 为 了 便于 移植 ， 如 果 应 用 进程 需要 从 每 个 具备 广播 能 力 的 接口 
发 送 同 一 个 广播 数据 报 ， 它 就 应 该 首先 获取 各 个 接口 的 配置 (17.6 节 ) ， 然 后 对 每 个 具备 广 
播 能 力 的 接口 执行 一 个 目的 地 址 指定 为 该 接口 之 子 网 定向 广播 地 址 的 sendto 调 用 。 


20.3_ 单 播 和 广播 的 比较 


在 查看 广播 之 前 ,我 们 有 必要 搞 清 楚 向 一 个 单 播 地 址 发 送 一 个 UDP 数据 报时 所 发 生 的 步骤 。 
图 20-3 展 示 了 某 个 以 太 网 上 的 3 个 主机 。 

图 中 以 太 网 子 网 地 址 为 192.168.42/24， 其 中 24 位 作为 子 网 ID， 剩 下 8 位 作为 主机 ID。 左 侧 的 
应 用 进程 在 一 个 UDP 套 接 字 上 调用 sendqto 往 IP 地 址 192.168.42.3 端 口 7433 发 送 一 个 数据 报 。UDP 
层 对 它 冠 以 一 个 UDP 首部 后 把 UDP 数据 报 传递 到 中层 。IP 层 对 它 冠 以 一 个 IPv4 首 部 ， 确 定 其 外 
出 接口 ， 在 以 太 网 情况 下 还 激活 ARP 把 目的 中 地 址 映射 成 相应 的 以 太 网 地 址 : 
00:0a:95:79:bc:b4。 该 分 组 然后 作为 一 个 目的 以 太 网 地 址 为 这 个 48 位 地 址 的 以 太 网 帧 发 送出 
去 。 该 以 太 网 帧 的 帧 类 型 字段 值 为 表示 IPv4 分 组 的 0x0800。IPv6 分 组 的 帧 类 型 为 0x86dqq。 

中 间 主 机 的 以 太 网 接口 看 到 该 帧 后 把 它 的 目的 以 太 网 地 址 与 自己 的 以 太 网 地 址 
《00:04:ac:17:bf38) 进行 比较 。 既 然 它 们 不 一 致 ， 该 接口 于 是 忽略 这 个 帧 。 可 见 单 播 帧 不 会 对 
该 主机 造成 任何 额外 开销 ， 因 为 忽略 它们 的 是 接口 而 不 是 主机 。 

右 侧 主机 的 以 太 网 接口 也 看 到 该 帧 , 当 它 比较 该 帧 的 目的 以 太 网 地 址 和 自己 的 以 太 网 地 址 时 ， 
会 发 现 它们 相同 。 该 接口 于 是 读 入 整个 帧 ， 读 入 完毕 后 可 能 产生 一 个 硬件 中 断 ， 致 使 相应 设备 驱 
动 程序 从 接口 内 存 中 读 取 该 帧 。 既 然 帧 类 型 为 0x0800， 该 帧 承载 的 分 组 于 是 被 置 于 下 的 输入 队列 。 





UA 
w 
- 


532 







sendto 
! 目的 IP=192.168.42.3 
目的 端口 =7433 






192.168.42.3= 单 播 
192.168.42.255-] ff 


192.168.42.2- Y f 1 
192.168.42.255-] 3 — ” 帧 类 型 =0800I 







目的 以 太 网 =00:0a:95:79:bc:b 


帧 类 型 =0800 目的 端口 =7433 


目的 IP=192.168.42.3 
协议 =UDP 
图 20-3 UDP 数据 报 单 播 示 例 


当 IP 层 处 理 该 分 组 时 ， 它 首先 比较 该 分 组 的 目的 IP 地 址 (192.168.42.3) 和 自己 所 有 的 IP 地 
址 。( 我 们 知道 主机 可 以 多 宿 ， 另 外 回顾 一 下 我 们 在 8.8 节 就 强 端 系统 模型 和 弱 端 系统 模型 进行 
的 讨论 .) 既然 这 个 目的 地 址 是 本 主机 自己 的 耳 地 址 之 一 ， 该 分 组 于 是 被 接受 。 

IP 层 接着 查看 该 分 组 IPv4 首 部 中 的 协议 字段 ， 其 值 为 表示 UDP 的 17。 该 分 组 承载 的 UDP 数 
据 报 于 是 被 传递 到 UDP 层 。 

UDP 层 检 查 该 UDP 数据 报 的 目的 端口 〈 如 果 其 UDP 套 接 字 已 经 连接 ， 那 么 还 检查 源 端口 )， 
接着 在 本 例子 中 把 该 数据 报 置 于 相应 套 接 字 的 接收 队列 。 必 要 的 话 UDP 层 作为 内 核 一 部 分 唤醒 
阻塞 在 相应 输入 操作 上 的 进程 ， 由 该 进程 读 取 这 个 新 收取 的 数据 报 。 

本 例子 的 关键 点 是 单 播 了 数据 报 仅 由 通过 目的 了 P 地 址 指定 的 单个 主机 接收 。 子 网 上 的 其 他 

主机 都 不 受 任何 影响 。 

我 们 接着 考虑 一 个 类 似 的 例子 : 同样 的 子 网 ， 不 过 发 送 进程 发 送 的 是 一 个 目的 地 址 为 子 网 
定向 广播 地 址 192.168.42.255 的 数据 报 。 图 20-4 展 示 了 这 个 例子 。 

当 左 侧 的 主机 发 送 该 数据 报时 ， 它 注意 到 目的 下 地 址 是 所 在 以 太 网 的 子 网 定向 广播 地 址 ， 
于 是 把 它 映射 成 48 位 全 为 1 的 以 太 网 地 址 :， ff:ff:ff:ff:ff:fft。 这 个 地 址 使 得 该 子 网 上 的 每 
一 个 以 太 网 接口 都 接收 该 帧 ， 图 中 右 侧 两 个 运行 IPv4 的 主机 自然 都 接收 该 帧 。 既 然 以 太 网 帧 类 
型 为 0x0800， 这 两 个 主机 于 是 都 把 该 帧 承载 的 分 组 传递 到 IP 层 。 既 然 该 分 组 的 目的 IP 地 址 匹配 
两 者 的 广播 地 址 ， 并 且 协 议 字 段 为 17 (UDP)， 这 两 个 主机 于 是 都 把 该 分 组 承载 的 UDP 数据 报 传 
递 到 UDP。 
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| 目的 [P=192.168.42.255 
日 的 端口 =520 


协议 =UDP | 







192.168.42.2= 单 播 A | 192.168.42.3= 单 揪 
192.168.42.255= 广 播 — 帧 类 型 =0800| | 192.168.42.255=) “HR 


00:0a:95:79:bc:b4 





目的 以 太 网 =Eff:Ef:ff:ff:ff:ftf 
帧 类 型 =0800 


目的 端口 =520 


日 的 [P=192.168.42.255 
协议 =UDP 


图 20-4 ” UDP 数据 报 广播 示例 


右 侧 的 那个 主机 把 该 UDP 数据 报 传递 给 绑 定 端口 520 的 应 用 进程 。 一 个 应 用 进程 无 需 就 为 接 
收 广播 UDP 数据 报 而 进行 任何 特殊 处 理 : 它 只 需要 创建 一 个 UDP 套 接 字 ， 并 把 应 用 的 端口 号 捆 
绑 到 其 上 。( 我 们 假设 捆绑 的 趾 地 址 是 典型 的 INAPDR_ANY。) 

然而 中 间 的 那个 主机 没有 任何 应 用 进程 绑 定 UDP 端口 5320。 该 主机 的 UDP 代码 于 是 丢弃 这 个 
已 收取 的 数据 报 。 该 主机 绝 不 能 发 送 一 个 ICMP 端 口 不 可 达 消 息 ， 因 为 这 么 做 可 能 产生 广播 风暴 
(broadcast storm)， 即 子 网 上 大 量 主机 几乎 同时 产生 一 个 响应 ， 导 致 网 络 在 一 段 时 间 内 不 可 用 。 
另外 发 送 该 数据 报 的 主机 如 何 处 理 这 些 ICMP 出 错 消息 也 成 问题 : 有 的 接收 主机 报告 了 错误 ， 有 
的 未 报告 ， 那 得 怎么 办 ? 

我 们 还 在 图 中 表示 出 由 左 侧 主机 发 送 的 数据 报 也 被 递送 给 自己 。 这 是 广播 的 一 个 属性 ， 根 
据 定义 ， 广播 分 组 去 往 子 网 上 的 所 有 主机 ， 包 括 发 送 主 机 自身 “TCPv2 第 109 一 110 页 )。 我 们 假 
设 发 送 应 用 进程 还 绑 定 自己 要 发 送 到 的 端口 (520)， 这 样 它 将 收 到 自己 发 送 的 每 个 广播 数据 报 
的 一 个 副本 。( 然 而 一 般 说 来 , 发 送 UDP 广 播 数据 报 的 应 用 进程 并 不 需要 捆绑 这 些 数据 报 的 目的 
端口 。) 

我 们 在 图 中 展示 了 由 JIP 层 或 数据 链 路 层 执行 的 一 个 逻辑 回馈 ， 通 过 这 个 回 镇 ， 每 个 数据 
报 被 复制 一 份 并 沿 协议 栈 向 上 传送 (TCPv2 第 109 ~ 110 页 ). 网 络 子 系统 也 可 以 使 用 物理 回馈 ， 
不 过 这 么 做 在 网 络 存在 故障 条 件 下 ( 例如 没有 终结 的 以 太 网 ) 会 导致 问题 ， 


本 例 展 示 了 广播 存在 的 根本 问题 ， 子 网 上 未 参加 相应 广播 应 用 的 所 有 主机 也 不 得 不 沿 协议 


栈 一 路 向 上 完整 地 处 理 收取 的 UDP 广 播 数 据 报 , 直到 该 数据 报 历经 UDP 层 时 被 丢弃 为 止 。( 回 顾 
我 们 就 图 8-21 展 开 的 讨论 ,》 另 外 ， 子 网 上 所 有 非 IP 的 主机 (例如 运行 Novell IPX 的 主机 ) 也 不 
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得 不 在 数据 链 路 层 接收 完整 的 帧 ， 然 后 再 丢弃 它 〈 假 设 这 些 主机 不 支 该 帧 的 帧 类 型 ， 对 于 IPv4 
分 组 就 是 0x0800)。 要 是 运行 着 以 较 高 速率 产生 IP 数 据 报 的 应 用 (例如 音频 、 视 频 应 用 )， 这 些 
非 必要 的 处 理 有 可 能 严重 影响 子 网 上 这 些 其 他 主机 的 工作 。 我 们 将 在 下 一 章 看 到 多 播 是 如 何在 
一 定 程度 上 解决 本 问题 的 。 


我 们 在 图 20-4 中 选择 UDP 端口 为 9520 是 有 意 的 .该 端口 由 routed 守 护 进程 用 于 交换 RIP 分 
组 。 一 个 子 网 上 使 用 RIP 版 本 1 的 所 有 路 由 器 每 隔 30 秒 钟 发 送 一 个 UDP 广播 数据 报 。 如 果 该 子 
网 上 存在 200 个 系统 ( 包括 2 个 使 用 RIP 的 路 由 器 ) ， 那 么 作为 主机 的 其 余 198 个 系统 将 不 得 不 
每 隔 30 秒 钟 就 处 理 (并 丢弃 ) 一 次 这 些 广播 数据 报 ( 假设 这 198 个 主机 无 一 运行 routed). 
RIP 第 2 版 改 用 多 播 解 决 这 个 问题 。 
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我 们 再 次 修改 ag_cl1i 函 数 , 这 次 允许 它 向 UDP 标准 daytime 服 务 器 (图 2-18) 广播 发 送 请 求 ， 
然后 显示 所 有 应 答 。 我 们 对 main 函 数 〈 图 8-7)〉 所 做 的 唯一 改动 是 把 目的 端口 号 改 为 13: 

servaddr.sin port = htons(13); 

我 们 首先 随 未 修改 的 sag_cli 函 数 〈 图 8-8) 编译 经 修改 的 main 函 数 ， 并 在 主机 freebsd 上 
运行 它 。 

freebsd % udpcli01 192.168.42.255 


hi 
sendto error: Permission denied 


命令 行 参数 是 该 主机 第 二 个 以 太 网 接口 的 子 网 定向 广播 地 址 。 我 们 键入 一 行文 本 ， 程 序 调 
Flsendto, 结果 返回 EACCES 错 误 。 我们 收 到 这 个 错误 的 原因 在 于 ， 除非 显 式 告诉 内 核 我 们 准备 
发 送 广 播 数 据 报 , 否则 系统 不 允许 我 们 这 么 做 。 我们 通过 设置 so_BROADCAST 套 接 字 选项 来 做 到 
这 一 点 (7.5 节 )。 


源 自 Berkeley 的 实现 实施 这 种 健全 性 检查 , 而 对 于 Solaris 2.5, EPA 7:48 X SO. BROADCAST 
套 接 字 选 项 也 能 接受 目的 地 址 为 广播 地 址 的 数据 报 。POSIX 规 范 要 求 发 送 广播 数据 报 必须 设 
置 该 套 接 字 选 项 。 

对 于 不 存在 SO_3ROADCAST 套 接 字 选 项 的 4.2BSD 来 说 ， 广 播 是 一 个 特权 操作 。 该 选项 增 
设 到 4.3BSD 之 后 ， 任 何 进程 都 允许 设置 它 以 执行 广播 操作 。 


我 们 现在 按 图 20-5 所 示 方 式 修改 ag_cli 函 数 。 这 个 版 本 设置 So_BROADCAST 套 接 字 选 项 并 

显示 在 5 s 内 收 到 的 所 有 应 答 。 

给 服务 器 地 址 分 配 空间 ， 设 置 套 接 字 选 项 

11-13 malloc 为 由 recvfrom 返 回 的 服务 器 地 址 分 配 空间 。 设 置 sSo_BROADCAST 套 接 字 选项 ， 
并 安装 一 个 SIGALRM 信 和 号 处 理 函 数 。 

从 标准 输入 读 取 一 行 ， 发 送 至 套 接 字 ， 读 取 所 有 应 答 

14-24 ”以 下 两 步 ( 即 fgets 和 sendto) 类 似 该 函数 以 前 的 版 本 。 然 而 既然 发 送 的 是 一 个 广播 
数据 报 ， 我 们 可 能 因此 收 到 多 个 应 答 。 我 们 在 一 个 循环 中 调用 recvfrom， 并 显示 在 5 
秒 钟 内 收 到 的 所 有 应 答 。5 秒 钟 后 系统 产生 sIGALARM 信 号 ， 其 信号 处 理 函 数 被 调用 ， 
导致 recvfrom 返 回 EINTR 错 误 。 
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beast/dgclibcastl.c 
1 #include "unp.h" 


2 static void recvfrom_alarm(int); 


3 void 

4 dg_cli(FILE *fp, int sockfd, const SA *pservaddr, socklen_t servlen) 
5 { 

6 int n; 

7 const int on - 1; 

8 char sendline[MAXLINE], recvline[MAXLINE + 1j; 

9 Socklen t len; 

10 struct sockaddr *preply, addr; 

11 preply addr - Malloc(servlen); 

12 Setsockopt(sockfd, SOL SOCKET, SO BROADCAST, &on, sizeof(on)); 
13 Signal(SIGALRM, recvfrom alarm); 

14 while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 

15 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
16 alarm(5); 

17 for (3 3) { 

18 len = servlen; 

19 n = recvfrom(sockfd, recvline, MAXLINE, 0, preply_addr, &len); 
20 if (n < 0) { 

21 if (errno == EINTR) 

22 break; /* waited long enough for replies */ 
23 else 

24 err_sys("recvfrom error"); 

25 } else { 

26 recvline(n] = 0; /* null terminate */ 

27 printf("from ts: $s", 

28 Sock ntop. host(preply adór, len), recviine); 
29 } 

30 } 

31 } 

32 free(preply_addr) ; 

33: 4 


34 static void 
35 recvfrom_alarm(int signo) 


2 | return; /* just interrupt the recvfrom() */ 
ical bcast/dgclibcastl.c 
图 20-5 广播 请 求 的 9g_c1i 函 数 
输出 收 到 的 每 个 应 答 


25-29 ”我 们 对 收 到 的 每 个 应 答 都 调用 sock_ntop_host, 让 该 函数 以 点 分 十 进 制 数 格式 返回 服 
务 器 的 耳 地 址 《假设 IPv4 情 形 )。 服 务 器 下 地 址 和 来 自 它 的 应 答 一 道 显 示 。 
如 果 指 定 192.168.42.255 这 个 子 网 定向 广播 地 址 运行 本 程序 ， 我 们 得 到 如 下 结果 : 


freebsd $ udpcli01 192.168.42.255 

hi 

from 192.168.42.2: Sat Aug 2 16:42:45 2003 
from 192.168.42.1: Sat Aug 2 16:42:45 2003 
from 192.168.42.3: Sat Aug 2 16:42:45 2003 
hello 

from 192.168.42.3: Sat Aug 2 16:42:57 2003 
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from 192.168.42.2: Sat Aug 2 16:42:57 2003 
from 192.168.42.1: Sat Aug 2 16:42:57 2003 


我 们 必须 每 次 键入 一 行文 本 以 产生 UDP 数据 报 输出 。 我 们 每 次 收 到 3 个 应 答 ， 其 中 有 一 个 来 
自发 送 主机 本 身 。 如 前 所 述 ， 广 播 数据 报 的 目的 主机 是 包括 发 送 主机 在 内 的 接 入 同一 个 子 网 的 所 
有 主机 。 所 有 应 答 数据 报 都 是 单 播 的 , 因为 作为 其 目的 地 址 的 请 求 数据 报 源 地 址 是 一 个 单 播 地 址 。 

所 有 系统 都 报告 同样 的 时 间 ， 这 是 因为 它们 都 运行 NTP。 


IP 分 片 和 广播 


源 自 Berkeley 的 内 核 不 允许 对 广播 数据 报 执行 分 片 。 对 于 目的 地 址 是 广播 地 址 的 下 数据 报 ， 
如 果 其 大 小 超过 外 出 接口 的 MTU， 发 送 它 的 系统 调用 将 返回 PsGSITZE 错 误 〔(TCPv2 第 233 一 234 
页 )。 这 是 一 个 自 BSD4.2 以 来 就 存在 的 决策 。 不 允许 内 核对 广播 数据 报 执行 分 片 的 理由 并 不 充 
分 ， 感 觉 上 是 既然 广播 已 经 施加 给 网 络 相当 大 的 负担 ， 再 因 分 片 而 造成 这 个 负担 倍 乘 片 段 的 数 
量 就 更 不 应 该 。 
我 们 可 以 使 用 图 20-5 中 的 程序 观察 这 种 情形 。 我 们 将 标准 输入 重 定向 自 一 个 含有 长 度 为 
2000 字 节 的 单个 文本 行 的 文件 ， 它 将 导致 在 以 太 网 上 发 生 分 片 。 
freebsd $ udpcliO1 192.168.42.255 < 20001ine 
sendto error:Message too long 
AIX、FreeBSD 和 MacOS 都 实施 了 这 种 限制 。Linux、Solaris 和 HP-UX 都 允许 对 目的 地 址 
为 广播 地 址 的 数据 报 进行 分 片 。 然 而 为 了 便于 移植 起 见 ， 需 要 广播 的 应 用 程序 应 该 使 用 
SIOCGIFMTU ioctl 确 定 外 出 接口 的 MTU， 从 中 扣除 IP 首 部 和 UDP 首部 的 长 度 得 到 最 大 净 荷 
大 小 。 如 果 是 在 局 域 网 上 ， TX PUE eee tsi 
1500 的 以 太 网 MTU 得 出 )， 因 为 局 域 网 中 以 太 网 的 MTU 通 常 是 最 小 的 . 


20.5 ”竞争 状态 

当 有 多 个 进程 访问 共享 的 数据 ， 而 正确 结果 取决 于 进程 的 执行 顺序 时 ， 我 们 称 这 些 进 程 处 
于 竞争 状态 (race condition)。 由 于 在 典型 的 Unix 系 统 中 进程 的 执行 顺序 取决 于 每 回 都 会 发 生变 
化 的 众多 因素 ， 因 此 处 于 竞争 状态 的 进程 有 时 产生 正确 的 结果 ， 有 时 产生 不 正确 的 结果 。 最 难 
调试 的 一 类 竞争 状态 是 通常 情况 下 结果 正确 ， 偶 尔 才 发 生 结果 不 正确 现象 的 那些 。 我 们 将 在 第 
26 章 讨论 互 斥 变量 和 条 件 变量 时 进一步 探讨 竞争 状态 类 型 。 竞 争 状态 对 于 线程 化 编程 始终 是 一 
个 关注 点 ， 因 为 在 线程 之 间 共 享 着 如 此 之 多 的 数据 (例如 所 有 的 全 局 变量 )。 

当 涉 及 信号 处 理 时 ， 往 往 会 出 现 男 一 种 类 型 的 竞争 状态 。 发 生 问 题 的 原因 在 于 信号 会 在 程 
序 执行 过 程 中 由 内 核 随 时 随地 递交 。POSIX 人 允许 我 们 临时 阻塞 某 些 信号 的 递交 ， 不 过 在 进行 IO 
操作 时 往往 没有 多 少 用 处 。 

了 解 竞 争 状态 问题 最 简单 方法 是 考察 例子 。 图 20-5 中 存在 一 个 党 争 状 态 ， 花 几 分 钟 时 间 细 
读 一 下 ,看 看 你 能 否 找 出 它 来 。( 提 示 : 当 信号 被 递交 时 我 们 可 能 正在 哪里 执行 ? ) 你 还 可 以 按 
如 下 做 法 强行 产生 该 竞争 状态 : 把 alarm 的 参数 从 5 改 为 1， 在 printf 紧 前 增加 sleep(1)。 

对 函数 做 了 这 些 修 改 后 我 们 键入 第 -- 个 输入 文本 行 , 它 被 作为 一 个 广播 数据 报 发 送出 去 , 1 
秒 钟 的 alarm 报 警 时 钟 也 同时 启动 。 我 们 随后 阻塞 在 recvfrom 调 用 中 ， 第 一 个 应 答 可 能 在 数 毫 
秒 内 到 达 我 们 的 套 接 字 。 该 应 答 由 recvfrom 返 回 后 ， 我 们 进入 1 秒 钟 的 睡眠 期 。 其 他 应 答 陆 续 
到 达 后 被 置 于 我 们 的 套 接 字 接 收 缓冲 区 。 然 而 就 在 我 们 睡眠 期 间 ，alarm 定 时 器 到 时 ， 从 而 产 
生 sIGaLRM 信 号 : 我 们 的 信号 处 理 函 数 被 调用 ， 而 且 它 只 是 返回 并 中 断 让 我 们 阻塞 在 其 中 的 
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sleep 调 用 。 我 们 接着 循环 回去 ， 每 读 入 一 个 已 经 在 套 接 字 接 收 缓冲 区 中 排队 的 应 答 就 先 暂 停 1 
秒 钟 再 显示 其 内 容 。 当 处 理 完 所 有 的 应 答 时 我 们 再 次 阻塞 在 recvfrom 调 用 中 ， 而 此 时 定时 器 已 
不 再 运转 ， 我 们 于 是 将 永远 阻塞 在 recvfrom 中 。 这 里 的 根本 问题 是 : 尽管 我 们 的 意图 是 让 信号 
处 理 函数 中 断 某 个 阻塞 中 的 recvfrom， 然 而 信号 却 可 以 在 任何 时 刻 被 递交 ， 当 它 被 递交 时 ， 我 
们 可 能 在 无 限 for 循 环 中 的 任何 地 方 执行 。 

我 们 接 下 去 讨论 本 问题 的 4 个 解决 办 法 ， 其 中 1 个 是 不 正确 的 ， 另 外 3 个 是 正确 的 。 


20.5.1 阻塞 和 解 阻 塞 信号 


第 一 个 〈 不 正确 的 ) 办 法 是 在 执行 for 循 环 的 其 他 部 分 期 间 通 过 阻塞 信号 的 递交 来 减 小 出 
错 的 窗口 。 图 20-6 给 出 了 这 个 新 版 本 。 





bcast/dgclibcast3.c 
i #include "unp.h" 
2 static void recvfrom alarm(int); 
3 void 
4 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
5 { 
6 int n; 
7 const int on - 1; 
8 char sendline[MAXLINE], recvline[MAXLINE + 1]; 
9 sigset_t sigset_alrm; 
10 socklen_t len; 
11 struct sockaddr *preply_addr; 
12 preply addr = Malloc(servlen) ; 
13 Setsockopt(sockfd, SOL SOCKET, SO BROADCAST, &on, sizeof(on)); 
14 Sigemptyset(&sigset alrm); 
15 Sigaddset(&sigset alrm, SIGALRM); 
16 Signal(SIGALRM, recvfrom alarm); 
17 while (Fgets(sendline, MAXLINE, fp) !- LL) ( 
18 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
19 alarm(5); 
20 for (: ; ) { 
21 len = servlen; 
22 Sigprocmask(SIG UNBLOCK, &sigset alrm, NULL); 
23 n - recvfrom(sockfd, recvline, MAXLINE, 0, preply addr, &len); 
24 Sigprocmask(SIG BLOCK, &sigset alrm, NULL); 
25 if (n < 0) { 
26 if (errno == EINTR) 
27 break; /* waited long enough for replies */ 
28 else 
29 err sys("recvfrom error"); 
30 ) else ( 
31 recvline[n] = 0; /* null terminate */ 
32 printf("from $s: %s", 
33 Sock ntop host(preply addr, len), recvline); 
34 ) 
35 ) 
36 ) 
37 free(preply addr); 
38 ) 
39 static void 
40 recvfrom alarm(int signo) 
41 ( 
42 return; /* just interrupt the recvfrom() */ 
43 ) 
bcast/dgclibcast3.c 


图 20-6 ”在 for 循 环 内 执行 期 间 阻塞 信号 (不 正确 办 法 ) 
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声明 信号 集 并 初始 化 
14-15 ”声明 一 个 信号 集 ， 把 它 初始 化 为 空 集 (sigemptyset )， 再 打开 与 SIGALRM 对 应 的 位 
(sigaddset). 
解 阻塞 信号 和 阻塞 信号 
21-24 ”在 调用 recvfrom 前 ， 我 们 解 阻塞 sSIGALRM 信 号 (以 便 我 们 被 阻塞 在 该 调用 期 间 该 信号 
能 被 递交 ); 在 recvfrom 返 回 后 ， 我们 立即 阻塞 该 信和 号。 如果 SsIGALRM 信 号 产生 ( 即 定 
时 器 时 间 到 ) 时 该 信号 处 于 被 阻塞 期 间 ， 那 么 内 核 将 记 住 这 个 事实 ， 但 是 不 递交 该 信 
号 〈 即 调用 其 信号 处 理 函 数 )， 直 到 该 信号 被 解 阻 塞 。 这 就 是 信号 的 产生 与 递交 之 间 本 
质 的 区 别 。APUE 第 10 章 提供 了 POSIX 信 号 处 理 所 有 这 些 方面 的 额外 细节 。 
如 果 编 译 运行 本 程序 ， 它 看 起 来 工作 正常 ， 然 而 存在 竞争 状态 的 大 多 数 程序 在 大 多 数 情 
况 下 照样 工作 正常 ! 该 程序 仍然 存在 的 一 个 问题 是 : 解 阻塞 信和 号、 调用 recvfrom 和 阻塞 信号 
都 是 互相 独立 的 系统 调用 。 如 果 sIGALRM 信 号 恰 在 recvfrom 返 回 最 后 一 个 应 答 数据 报 之 后 与 
接着 阻塞 该 信号 之 间 递 交 , 那么 下 一 次 调用 recvfrom 将 永远 阻塞 。 我们 已 经 缩小 了 出 错 的 窗 
口 ， 但 是 问题 依然 存在 。 
这 种 办 法 的 一 个 变 体 是 在 信和 号 被 递交 后 让 信和 号 处 理 函 数 设 置 一 个 全 局 标志 。 
ie IH signo) 
( 
had alarm - 1; 


return; 


) 
每 次 调用 alarm 之 前 把 该 标志 初始 化 为 0。 我 们 的 Gg_c1ii 函 数 在 调用 recvfrom 之 前 检查 这 
个 标志 ， 如 果 其 值 不 为 0 就 不 再 调用 recvfrom。 


for (; ;) { 
len - servlen; 
Sigprocmask(SIG UNBLOCK, &sigset alrm, NULL); 
if (had alarm - 1) 
break; 
n = recvfrom(sockfd, recvline, MAXLINE, 0, preply addr, &len); 


如 果 sIGALRM 信 号 是 在 它 被 阻塞 期 间 〈 即 自 上 一 次 recvfrom 返 回 后 )， 或 者 在 它 被 这 段 代 
码 解 阻塞 之 时 产生 ， 那 么 它 将 在 sigprocmask 返 回 之 前 递交 并 设置 标志 。 然 而 在 测试 标志 和 调 
用 recvfrom 之 间 仍 然 存在 一 个 较 小 的 时 间 窗 口 ， 期 间 sIGALRM 信 号 可 能 产生 并 递交 ;如 果真 发 
生 该 情况 ，recvfrom 调 用 将 永远 阻塞 (当然 假定 不 再 收 到 额外 的 应 答 )。 


20.5.2 用 pselect 阻塞 和 解 阻 塞 信和 号 


正确 办 法 之 一 是 使 用 pselect (6.9 节 )， 如 图 20-7 所 示 。 

22-33 ”阻塞 sSIGALRM 并 调用 pselect。pselect 最 后 一 个 参数 是 指向 sigset_empty 变 量 的 一 个 
指针 。sigset_empty 是 一 个 没有 任何 信号 被 阻塞 的 信号 集 ， 也 就 是 说 其 所 有 信号 都 是 
解 阻 塞 的 。pselect 保 存 当前 信号 掩 码 ( 其 中 只 有 SIGALRM 信 号 被 阻塞 )， 测 试 指定 的 
描述 符 ,如果 必要 则 把 进程 信号 掩 码 设 置 为 空 集 再 阻塞 进程 ,然而 在 返回 之 前 , pselect 
把 进程 信号 掩 码 恢复 成 刚 被 调用 时 的 值 。pselect 的 关键 点 在 于 : 设置 信号 掩 码 、 测 试 
描述 符 以 及 恢复 信号 掩 码 这 3 个 操作 在 调用 进程 看 来 自 成 原子 操作 。 

34-38 ”如 果 套 接 字 变 为 可 读 ， 那 就 调用 recvfrom， 我 们 知道 它 不 会 阻塞 。 
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E bcast/dgclibcast4.c 
1 #include "unp.h* 
2 static void recvfrom alarm(int); 
3 void 
4 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
5í 
6 int n; 
7 const int on = 1; 
8 char sendline[MAXLINE], recvline(MAXLINE + 1); 
9 fd set rset; 
10 sigset_t sigset alrm, sigset empty; 
11 Socklen t len; 
12 struct sockaddr *preply_addr; 
13 preply_addr = Malloc(servlen) ; 
14 Setsockopt (sockfd, SOL_SOCKET, SO BROADCAST, &on, sizeof (on)); 
15 FD ZERO (&rset) ; 
16 Sigemptyset (&sigset_empty) ; 
17 Sigemptyset (&sigset_alrm) ; 
18 Sigaddset(&sigset alrm, SIGALRM) ; 
19 Signal (SIGALRM, recvfrom_alarm) ; 
20 while (Fgets(sendline, MAXLINE, fp) != NULL) { 
21 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
22 Sigprocmask(SIG BLOCK, &sigset alrm, NULL); 
23 alarm(5); 
24 for (; :; ) ¢ 
25 FD SET(sockfd, &rset); 
26 n = pselect(sockfd+1, &rset, NULL, NULL, NULL, &sigset empty); 
27 if (n« 0) ( 
28 if (errno -- EINTR) 
29 break; 
30 eise 
31 err Sys("pselect error"); 
32 ) else if (n != 1) 
33 err sys("pselect error: returned $d", n); 
34 len - servlen; 
35 n = Recvfrom(sockfd, recvline, MAXLINE, 0, preply addr, &len); 
36 recvlineí(n] = 0; /* null terminate */ 
37 printf("from ts: %s", 
38 Sock_ntop_host (preply_addr, len), recvline); 
39 } 
40 } 
41 free(preply addr); 
42 ] 
43 static void 
44 recvfrom alarm(int signo) 
45 ( 
46 return; /* just interrupt the recvfrom() */ 
47 } 

bcast/dgclibcast4.c 


图 20-7 ”使 用 pselect 阻 塞 和 解 阻 塞 信 和 号 
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正如 6.9 节 所 提 ,pselect 是 一 个 新 增 的 POSIX 函 数 ;在 图 1-16 中 的 所 有 系统 中 ,只 有 FreeBSD 
和 Linux 支 持 它 。 无 论 如 何 ， 我 们 在 图 20-8 中 给 出 了 它 的 一 个 尽管 不 正确 然而 简单 的 实现 。 给 出 
这 个 不 正确 实现 的 原因 在 于 展示 pselect 涉 及 的 3 个 步骤 : 〈1) 保存 当前 信号 撼 码 ， 并 把 信和 号 掩 
码 设置 为 由 调用 者 指定 的 值 ， (2 测试 描述 符 ， 以 及 (3) 恢复 信号 掩 码 。 








lib/pselect.c 
9 #include "unp.h" 
10 int 
11 pselect (int nfds, fd set *rset, fd set *wset, fd set *xset, 
12 const struct timespec *ts, const sigset t *sigmask) 
13.4 
14 int n; 
15 struct timeval tv; 
16 sigset_t savemask; 
17 if (ts != NULL) { 
18 tv.tv_sec = ts->tv_sec; 
19 tv.tv_usec = ts->tv_nsec / 1000; /* nanosec -> microsec */ 
20 } 
21 sigprocmask(SIG SETMASK, sigmask, &savemask) ; /* caller's mask */ 
22 n = select (nfds, rset, wset, xset, (ts == NULL) ? NULL : &tv); 
23 sigprocmask(SIG SETMASK, &savemask, NULL); /* restore mask */ 
24 return(n); 
25 } 
lib/pselect.c 





图 20-8 pselect 的 一 个 简单 但 不 正确 的 实现 


20.5.3 使 用 sigsetjmp 和 siglongjmp 


解决 竞争 状态 问题 的 另 一 个 正确 办 法 并 非 利 用 信号 处 理 函 数 中 断 被 阻塞 系统 调用 的 能 力 ， 
而 是 从 信号 处 理 函 数 中 调用 siglongjmp。 我 们 称 siglongjmp 为 非 局 部 跳 转 (nonlocal goto), 
因为 使 用 它 可 以 从 一 个 函数 跳 转 回 另 一 个 函数 。 图 20-9 展 示 了 这 个 技术 。 
分 配 跳 转 缓冲 区 

a 分 配 一 个 将 由 本 函数 及 其 信号 处 理 函 数 使 用 的 跳 转 缓冲 区 。 


调用 sigsetjmp 
20-23 从 ac_cli 函 数 中 直接 调用 sigsetjmp 时 ， 它 在 建立 跳 转 缓冲 区 后 返回 0。 接 着 调用 
recvfrome 


处 理 sIGALRM 并 调用 siglongjmp 
31-35 ” 当 sIGALRM 信 号 被 递交 时 ， 我 们 调用 siglongjmp。 这 会 使 ag_c1li 函 数 中 的 sigsetjmp 
返回 ， 返回 值 为 siglongjmp 的 第 二 个 参数 (1)， 它 必须 是 一 个 非 0 值 。sigsetjmp 返 回 
会 导致 dg_cli 中 的 for 循 环 结束 。 
以 这 种 方式 使 用 sigsetjmp 和 siglongjmp 确 保 我 们 不 会 因为 信号 递交 时 间 不 当 而 永远 阻 
塞 在 recvfrom 调 用 中 。 发 生 问 题 的 唯一 潜在 条 件 是 信号 在 printf 处 理 输 出 的 过 程 中 被 递交 。 我 
们 可 以 从 printf 中 跳出 ， 并 返回 sigset jmp。 不 过 这 可 能 会 使 bprintf 的 私有 数据 结构 前 后 不 一 
致 。 为 了 防止 出 现 这 种 情况 ， 我 们 应 该 把 图 20-6 中 的 信号 阻塞 和 解 阻塞 办 法 结合 非 局 部 跳 转 办 
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法 一 起 使 用 。? 但 这 会 使 该 解决 方法 变 得 很 不 灵 便 ,因为 任何 可 能 从 中 中 断 的 低 性 能 函数 周围 都 
可 能 发 生 信 号 阻塞 。 


bcast/dgclibcast5.c 
1 #include "unp.h" 
2 #include <setjmp.h> 
3 static void recvfrom alarm(int); 
4 static sigjmp but jmpbuf; 
5 void 
6 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
7 i 
8 int n; 
9 const int on - 1; 
10 char sendiine[MAXLINE], recvline[MAXLINE + 1]; 
1i socklen t len; 
12 struct sockaddr *preply. addr; 
13 preply addr = Malloc(servlen); 
14 Setsockopt(sockfd, SOL SOCKET, SO BROADCAST, &on, sizeof(on)); 
15 Signal(SIGALRM, recvfrom alarm); 
16 while (Fgets(sendline, MAXLINE, fp) !- NULL) ( 
17 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servien); 
18 alarm(5); 
19 for ts 7.) t 
20 if (sigsetjmp(jmpbuf, 1) !- 0) 
21 break; 
22 len - servlen; 
23 n - Recvfrom(sockfd, recvline, MAXLINE, 0, preply addr, &len); 
24 recvline[n] = 0; /* null terminate */ 
25 printf("from $s: %s", 
26 Sock ntop host(preply addr, len), recvline); 
27 } 
28 } 
29 free (preply_addr) ; 
30 } 
31 static void 
32 recvfrom alarm(int signo) 
33 ( 
34 siglongjmp(jmpbuf, 1); 
35 } 
bcast/dgclibcast5.c 


图 20-9 ”从 信和 号 处 理 函 数 中 使 用 sigsetjmp 和 siglongjmp 


O 图 20-9 存 在 两 个 潜在 的 时 序 问题 。 首 先 考 虑 如 果 信 号 是 在 recvfrom 返 回 和 把 它 的 返回 值 在 入 n 之 间 被 递交 , 那么 
会 发 生 什 么 现象 。 该 数据 报 将 被 认为 已 丢失 《尽管 它 已 由 recvfrom 收 取 )， 不 过 UDP 应 用 程序 应 该 能 够 处 理 数 
据 报 的 丢失 。 然 而 如 果 同 样 的 技术 用 于 TCP 应 用 程序 ， 数 据 就 永远 丢失 了 〔 因 为 TCP 已 确认 了 这 个 数据 并 把 它 
递送 给 了 应 用 进程 )。 图 20-10 使 用 IPC 的 ag_cli 函 数 也 存在 类 似 的 问题 : 信号 可 能 在 recvfrom 成 功 返 回 和 把 返 
回 值 存 入 n 之 间 被 递交 。 该 问题 可 通过 在 select 返 回 之 后 关 掉 alarm 来 解决 。 另 一 种 办 法 是 不 用 alarm， 而 改 用 
select 的 定时 功能 。 第 二 个 问题 是 alarm 调 用 和 首次 sigsetjmp 调 用 之 间 的 时 间 无 法 保证 小 于 alarm 人 时 间 (5% 
钟 )。 解 决 办 法 之 一 是 在 调用 sigsetjmp 之 后 再 设置 一 个 标志 ， 并 在 信号 处 理 函数 中 测试 该 标志 : 如 果 该 标志 还 
没有 设置 ， 那 么 不 调用 siglongjmp， 仅 仅 重 置 alarm 就 行 。 结 论 是 : 为 了 在 这 些 可 能 的 情形 下 保证 健壮 性 ， 应 
避免 使 用 siglongjmp， 而 改 用 pselect 或 IPC 方 法 。 
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20.5.4 ”使 用 从 信号 处 理 函 数 到 主 控 函 数 的 IPC 


解决 竞争 状态 问题 还 有 一 个 正确 办 法 。 本 办 法 不 是 让 信和 号 处 理 函 数 简单 地 返回 并 期 望 该 返 
回 能 够 中 断 阻 塞 中 的 recvfrom， 而 是 让 信号 处 理 函 数 使 用 IPC 通 知 主 控 函 数 ag_cl1i 定 时 器 已 到 
时 。 这 与 我 们 早先 给 出 的 让 信号 处 理 函 数 在 定时 器 时 间 到 时 设置 全 局 变量 haa_alarm 的 提议 多 
少 有 些 类 似 ， 因 为 该 全 局 变量 被 用 作 IPC 的 一 种 形式 (dg_cli 函 数 和 信号 处 理 函数 之 间 的 共享 
内 存 区 )。 使 用 全 局 变量 办 法 的 问题 在 于 主 控 函数 必须 测试 该 变量 , 如 果 信 号 的 递交 和 变量 的 测 
试 几乎 同时 发 生 ， 竞 争 状 态 的 时 序 问题 就 会 发 生 。 

我 们 在 图 20-10 中 使 用 的 是 进程 内 部 的 一 个 管道 。 当 定时 器 时 间 到 时 ， 信 和 号 处 理 函 数 将 向 该 
管道 中 写 出 一 个 字 节 ; dg_c1i 函 数 读 入 该 字 节 以 决定 何 时 终止 For 循环。 使 得 本 方法 如 此 完美 
的 是 我 们 使 用 seiect 来 检测 该 管道 是 否 变 为 可 读 。select 同 时 测试 套 接 字 和 管道 的 可 读 性 。 





rp 


Wn 


#include “unp.h" 


static void recvfrom_alarm(int); 
static int pipefda[2]); 


void 


bcast/dgclibcast6.c 


dg_cli (FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 


( 


int n, maxfdpl; 
const int on - 1; 


char sendline[MAXLINE], recvline[MAXLINE + 1]; 


fd set rset; 
socklen t len; 
struct sockaddr *preply_addr; 


preply_addr = Malloc(servlen); 


Setsockopt (sockfd, SOL_SOCKET, SO_BROADCAST, &on, 


Pipe (pipefd) ; 
maxfdpl = max(sockfd, pipefd[0]) + 1; 


FD, ZERO (&rset) ; 


Signal (SIGALRM, recvfrom alarm); 


sizeof{on)); 


while (Fgets(sendline, MAXLINE, fp) != NULL) { 
Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
alarm(5); 
for (; ;) ( 


FD SET(sockfd, &rset); 
FD SET(pipefd[0], &rset); 


if ( (n = select(maxfdpl, &rset, NULL, NULL, NULL)) < 0) ( 


if (errno -- EINTR) 
continue; 
else 
err sys("select error"); 
} 
if (FD ISSET(sockfd, &rset)) { 
len = servlen; 


n = Recvfrom(sockfd, recvline, MAXLINE, 0, preply_addr, 
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34 &len); 

35 recvline[n] = 0; /* null terminate */ 

36 printf("from $5: $s", 

37 Sock ntop hostí(prepiy addr, len), recvline); 
38 } 

39 if (FD_ISSET(pipefd[0], &rset)) { 

40 Read(pipefG[0], &n, 1); /* timer expired */ 
41 break; 

42 } 

43 } 

44 } 

45 free(preply_addr)} ; 

46 ) 


47 static void 
48 recvfrom alarm(int signo) 











49 ( 
50 Write(pipefd[1], "", 1); /* write one null byte to pipe */ 
51 return; 
52 ) 
bcast/dgclibcast6.c 
图 20-10 = (4D 
创建 管道 | 
15 ”我 们 创建 一 个 普通 的 Unix 管 道 ， 返 回 两 个 描述 符 。pipefd[0] 是 读 入 端 ，pipefd[1] 
是 写 出 端 。 


我 们 也 可 以 调用 socketpair 创 建 一 个 全 双 工 管道 。 某 些 系统 上 普通 的 Unix 管 道 也 总 是 
全 双 工 的 ， 可 以 从 任何 一 端 读 入 ， 也 可 以 写 出 到 任何 一 端 。 


对 套 接 字 和 管道 读 入 端 进行 select 

23-30 ”针对 套 接 字 sockfd 和 管道 读 入 端 pipefa[0] 调 用 select 测 试 可 读 条 件 。 

47-52 ” 当 sIGALRM 信 和 号 被 递交 时 , 信号 处 理 函 数 往 管道 中 写 入 一 个 字 节 , 使 得 该 管道 的 读 入 端 
变 为 可 读 。 本 信号 处 理 函 数 的 返回 有 可 能 中 断 select 调 用 。 当 select 返 回 EINTR 错 误 
时 我 们 忽略 该 错误 ， 因 为 我 们 知道 管道 的 读 入 端 将 最 终 变 为 可 读 ， 从 而 终结 for 循 环 。 

从 管道 reaa 

39.42 “ 当 管 道 的 读 入 端 变 为 可 读 时 ， 我 们 调用 readq 从 管道 中 读 入 由 信和 号 处 理 函 数 写 出 的 那个 
室 字 节 并 忽略 它 。 然 而 管道 变 为 可 读 这 一 点 告诉 我 们 定时 器 已 到 时 ， 于 是 我 们 break 
出 这 个 无 限 的 for 循 环 。 


20.6 小 结 





广播 发 送 的 数据 报 由 发 送 主机 某 个 所 在 子 网 上 的 所 有 主机 接收 。 广 播 的 劣势 在 于 同一 子 网 
上 的 所 有 主机 都 必须 处 理 数 据 报 ， 若 是 UDP 数据 报 则 需 沿 协议 栈 向 上 一 直 处 理 到 UDP 层 ， 即 使 
不 参与 广播 应 用 的 主机 也 不 能 幸免 。 要 是 运行 诸如 音频 、 视 频 等 以 较 高 数据 速率 工作 的 应 用 ， 
这 些 非 必要 的 处 理会 给 这 些 主机 带 来 过 度 的 处 理 负 担 。 我 们 将 在 下 一 章 看 到 多 播 可 以 解决 本 问 
题 ， 因 为 多 播发 送 的 数据 报 只 会 由 对 相应 多 播 应 用 感 兴趣 的 主机 接收 。 

我 们 把 UDP 时 间 获 取 客户 程序 改写 成 向 标准 daytime 服 务 器 发 送 一 个 广播 请 求 ， 然 后 显示 在 
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5 秒 钟 内 收 到 的 所 有 应 答 。 我 们 通过 这 个 例子 展示 由 sIGALRM 信 号 引起 的 竞争 状态 。 因 为 使 用 
alarm 函 数 和 sIGALRM 信 号 是 对 读 操作 设置 超时 的 一 个 常用 方法 , 这 个 微妙 的 错误 在 网 络 应 用 程 
序 中 比较 常见 。 我 们 给 出 了 解决 这 个 问题 的 一 个 不 正确 办 法 和 以 下 三 个 正确 办 法 : 

e. 使 用 pselecti 

e 使 用 sigsetjmp 和 siglongjmp; 


© 使 用 从 信号 处 理 函 数 到 主 循环 的 TIPC 〈 典 型 为 管道 )。 


习题 
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20.1 运行 使 用 dg_c1i 函 数 广 播 版 本 (图 20-5) 的 UDP 客户 程序 。 你 接收 到 了 多 少 个 应 答 ? 它们 总 是 以 同 
样 的 顺序 到 达 吗 ? 你 的 网 络 上 的 主机 具有 同步 时 钟 吗 ? 

20.2 在 图 20-10 中 select 返 回 之 后 插入 若干 printf 语 句 ， 以 便 查看 select 究 竟 返 回 一 个 错误 还 是 那 两 
个 描述 符 之 一 的 可 读 条 件 。 当 alarm 时 间 到 时 ， 你 的 系统 返回 了 EINTR 错 误 还 是 管道 的 可 读 条 件 ? 

20.3 ”运行 诸如 ecpdump 之 类 工具 查找 局 域 网 上 的 广播 数据 报 ， 所 用 命令 为 tcpaump ether broadcast. 
分 析 一 下 这 些 广 播 数据 报 分 别 属于 哪些 协议 族 。 
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21.1 概述 — 


如 图 20-1 所 示 ， 单 播 地 址 标识 单个 IP 接 口 ， 广 播 地 址 标识 某 个 子 网 的 所 有 IP 接 口 ， 多 播 地 
址 标识 一 组 人 P 接 口 。 单 播 和 广播 是 寻 址 方案 的 两 个 极端 (要么 单个 要 么 全 部 )， 多 播 则 意 在 两 者 
之 间 提 供 一 种 折衷 方 案 。 多 播 数据 报 只 应 该 由 对 它 感 兴趣 的 接口 接收 ， 也 就 是 说 由 运行 相应 多 
播 会 话 应 用 系统 的 主机 上 的 接口 接收 。 另 外 ， 广 播 一 般 局 限于 局 域 网 内 使 用 ， 而 多 播 则 既 可 用 
于 局 域 网 ， 也 可 跨 广 域 网 使 用 。 事 实 上 ， 基 于 MBone (B.2 节 ) 的 应 用 系统 每 天 都 在 跨 整 个 因 特 
网 多 播 。 

套 接 字 API 为 支持 多 播 而 增添 的 内 容 比较 简单 ， 9 个 套 接 字 选 项 ， 其 中 3 个 影响 目的 地 址 为 
多 播 地 址 的 UDP 数据 报 的 发 送 ， 另 外 6 个 影响 主机 对 于 多 播 数据 报 的 接收 。 





是 
在 讲解 多 播 地 址 的 时 候 ， 我 们 必须 区 分 IPv4 多 播 地 址 和 IPv6 多 播 地 址 。 
212.1 IPv4 的 D 类 地 址 


IPv4 的 D 类 地 址 〈 从 224.0.0.0 到 239.255.255.255) 是 IPv4 多 播 地 址 (图 A-3)。D 类 地 址 的 低 
序 28 位 构成 多 播 组 ID (group ID)， 整 个 32 位 地 址 则 称 为 组 地 址 (group address). 

图 21-1 展 示 了 从 IPv4 多 播 地 址 到 以 太 网 地 址 的 映射 方法 。IPv4 多 播 地 址 到 以 太 网 地 址 的 映 
射 见 RFC 1112 [Deering 1989]， 到 FDDI 网 络 地 址 的 映射 见 RFC 1390 [Katz 1993]， 到 令 牌 环 网 
地 址 的 映射 见 RFC 1469 [Pusateri 1993]。 图 中 还 展示 了 IPv6 多 播 地 址 到 以 太 网 地 址 的 映射 ， 以 
便 比 较 二 者 映射 成 的 结果 以 太 网 地 址 。 

考察 一 下 IPv4 的 映射 。 以 太 网 地 址 的 高 序 24 位 总 是 01:00:5e。 下 一 位 总 是 0， 低 序 23 位 复 
制 自 多 播 组 ID 的 低 序 23 位 。 多 播 组 思 的 高 序 5 位 在 映射 过 程 中 被 忽略 。 这 一 点 意 谓 着 32 个 多 播 
地 址 映射 成 单个 以 太 网 地 址 ， 因 此 这 个 映射 关系 不 是 一 对 一 的 。 

以 太 网 地 址 首 字 节 的 低 序 2 位 标明 该 地 址 是 一 个 统一 管理 的 组 地 址 。 统 一 管理 Cuniversally 
administered) 属性 位 意味 着 以 太 网 地 址 的 高 序 24 位 由 IEEE 分 配 ， 组 地 址 属性 位 由 接收 接口 识别 
并 进行 特殊 处 理 。 

下 面 是 若干 个 特殊 的 IPv4 多 播 地 址 。 

e 224.0.0.1 是 所 有 主机 Call-hosts) 组 。 子 网 上 所 有 具有 多 播 能 力 的 节点 (主机 、 路 由 器 或 

打印 机 等 ) 必须 在 所 有 具有 多 播 能 力 的 接口 上 加 入 该 组 。( 我 们 不 久 将 讨论 到 加 入 一 个 
多 播 组 意味 着 什么 。) 
e 224.0.0.2 是 所 有 路 由 器 (all-routers) 组 。 子 网 上 所 有 多 播 路 由 器 必须 在 所 有 具有 多 播 能 
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力 的 接口 上 加 入 该 组 。 


| 
IPv4 的 D 类 地 址 ， [el 中 | | | 


mess T] 低 序 23 位 | 


IPv4 以 太 网 多 播 地 址 ; [orzfooTseT | | | 
统 - -管理 的 组 地 址 中 - — 4 


局 部 管理 的 组 地 址 地 -一 


lpve 以 太 网 多 播 地 址 : [33 | 3 | | | | | 


| 忽略 的 10 个 字 节 | 低 序 32 位 | 


xn Xn 
"p inae 





图 21-1 IPv4 和 IPv6 多 播 地址 到 以 太 网 地 址 的 映射 


介 于 224.0.0.0 到 224.0.0.255 之 间 的 地 址 (也 可 以 写成 224.0.0.0/24) 称 为 链 路 局 部 的 〈link 
local) 多 播 地 址 。 这 些 地 址 是 为 低级 拓扑 发 现 和 维护 协议 保留 的 。 多 播 路 由 器 从 不 转发 以 这 些 
地 和 丝 为 目的 地 址 的 数据 报 。 我 们 将 在 考察 IPv6 多 播 地 址 之 后 再 讨论 ITPv4 多 播 地 址 的 范围 。 


21.2.2 IPv6 多 播 地 址 


IPv6 多 播 地 址 的 高 序 字 节 值 为 ff。 图 21-1 给 出 了 把 16 字 节 IPv6 多 播 地 址 映射 成 6 字 节 以 太 网 
地 址 的 方法 。112 位 组 ID 的 低 序 32 位 复制 到 以 太 网 地 址 的 低 序 32 位 。 以 太 网 地 址 的 高 序 2 字 节 为 
33:33。IPv6 多 播 地 址 到 以 太 网 地 址 的 映射 见 RFC 2464 [Crawford 1998a]， 到 FDDI 网 络 地 址 的 
映射 见 RFC 2467 [Crawford 1998b]， 到 令 牌 环 网 地 址 的 映射 见 [Thomas 1997]. 

以 太 网 地 址 首 字 节 的 低 序 2 位 标明 该 地 址 是 一 个 局 部 管理 的 组 地 址 。 局 部 管理 locally 
administered) 属性 位 意味 着 不 能 保证 该 地 址 对 于 IPv6 的 唯一 性 。 可 能 有 IPv6 以 外 的 其 他 协议 族 
共享 同一 网 络 并 使 用 同样 的 以 太 网 地 址 高 序 2 字 节 值 。 正 如 我 们 早先 所 提 , 组 地 址 属性 位 由 接收 
接口 识别 并 进行 特殊 处 理 。 

IPv6 多 播 地 址 定义 有 两 种 格式 ， 如 图 21-2 所 示 。 当 PP 标志 为 0 时 ,7 标志 区 分 众所周知 多 播 组 
(其 值 为 0) 还 是 临时 (transient) 多 播 组 (其 值 为 1 )。P 标 志 值 为 1 表示 多 播 地 址 是 基于 某 个 单 播 
前 级 赋予 的 (定义 见 RFC 3306 [Haberman and Thaler 2002])。 当 P 标 志 为 1 时 ，T 标 志 必 须 也 为 1 
(也 就 是 说 基于 单 播 的 多 播 地 址 总 是 临时 的 )，plen 和 prefix 这 两 个 字段 分 别 设置 为 前 缀 长 度 和 单 
播 前 缀 的 值 。4 位 标志 字段 的 高 2 位 是 被 保留 的 。IPv6 多 播 地 址 还 有 一 个 4 位 范围 (scope) 字段 ， 
我 们 不 久 将 讨论 到 。RFC 3307 [Haberman 2002 ] 叙述 了 IPv6 组 地 址 的 低 序 32 位 〈 狭 义 组 ID， 属 
于 图 21-1 中 112 位 广义 组 ID 一 部 分 》 独 立 于 P 标 志 的 分 配 机 人 制 。 
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图 21-2 ”IPv6 多 播 地 址 格式 


下 面 是 若干 特殊 的 IPv6 多 播 地 址 。 

e ff01::1 和 ff02::1 是 所 有 节点 (all-nodes) 41. 子 网 上 所 有 具有 多 播 能 力 的 节点 (主机 、 
路 由 器 和 打印 机 等 ) 必须 在 所 有 具有 多 播 能 力 的 接口 上 加 入 该 组 , 类 似 于 IPv4 的 224.0.0.1 
多 播 地 址 。 但 多 播 是 IPv6 的 一 个 组 成 部 分 ， 这 与 IPv4 是 不 同 的 。 

尽管 对 应 的 IPv4 组 称 为 所 有 主机 组 ， 而 IPv6 组 称 为 所 有 节点 组 ， 它 们 的 含义 是 一 致 的 。 
IPv6 重 新 命名 意 在 更 为 清晰 地 指出 本 组 包括 了 子 网 上 的 主机 、 路 由 器 、 打 印 机 ， 以 及 任何 I 
ike. 

e ff01::2、ff02::2 和 ff05::2 是 所 有 路 由 器 (all-routers) 组 。 子 网 上 所 有 多 播 路 由 器 必 
须 在 所 有 具有 多 播 能 力 的 接口 上 加 入 该 组 ， 类 似 于 IPv4 的 224.0.0.2 多 播 地 址 。 


21.2.3 ”多 播 地 址 的 范围 


IPv6 多 播 地 址 显 式 存在 -一 个 4 位 的 范围 〈scope) 字段 ， 用 于 指定 多 播 数 据 报 能 够 游 走 的 范 
围 。IPv6 分 组 还 有 一 个 跳 限 Chop limit) 字段 ， 用 于 限制 分 组 被 路 由 器 转发 的 次 数 。 下 面 是 若干 
个 已 经 分 配给 范围 字段 的 值 。 

1: 接口 局 部 的 (interface-local)。 
: 链 路 局 部 的 《link-local)。 
: 管区 局 部 的 (admin-local)。 
网 点 局 部 的 (site-local)。 

8: 组 织 机 构 局 部 的 《organization-local)。 

14: 全 球 或 全 局 的 (global)。 

其 余 值 或 者 不 作 分 配 , 或 者 保留 。 接口 局 部 数据 报 不 准 由 接口 输出 , 链 路 局 部 数据 报 不 可 
由 路 由 器 转发 。 管 区 (admin region)、 网 点 (site》 和 组 织 机 构 〈organization) 的 具体 定义 由 
该 网 点 或 组 织 机 构 的 多 播 路 由 器 管理 员 决 定 。 只 是 范围 字段 值 不 同 的 IPv6 多 播 地 址 代表 不 同 
的 组 。 

IPv4 多 播 数据 报 没 有 单独 的 范围 字段 。 因 历史 沿用 关系 ，IPv4 首 部 中 的 TTL 字 有 段 兼 用 作 和 多 
播 范 围 字段 : 0 意 为 接口 局 部 ，1 意 为 链 路 局 部 ，2 一 32 意 为 网 点 局 部 ，33 一 64 意 为 地 区 局 部 
(region-local)，65 一 128 意 为 大 洲 局 部 〈contionent-local)，129 一 255 意 为 无 范围 限制 〈 全 球 )。 
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TTL 字 段 的 这 种 双重 用 途 已 经 导致 一 些 困 难 ，RFC 2365 [Meyer 1998] 对 比 有 详细 的 描述 。 

尽管 把 IPv4 的 TTL 字 段 用 作 多 播 范围 控制 已 被 接受 并 且 是 受 推荐 的 做 法 ， 但 是 如 果 可 能 的 
话 可 管理 的 范围 划分 更 为 可 取 。 这样 做 会 把 IPv4 介 于 239.0.0.0 到 239.255.255.255 之 间 的 地 址 定义 
为 可 管理 地 划分 范围 的 IPv4 多 播 空间 (administratively scoped IPv4 multicast space) (RFC 2365 
[Meyer 1998])， 它 占据 多 播 地 址 空间 的 高 端 。 该 范围 内 的 地 址 由 组 织 机 构 内 部 分 配 ， 但 是 不 保 
证 跨 组 织 机 构 边 界 的 唯一 性 。 任 何 组 织 机 构 必 须 把 它 的 边界 多 播 路 由 器 配置 成 禁止 转发 以 这 些 
地 址 为 目的 地 址 的 多 播 数 据 报 。 

可 管理 地 划分 范围 的 IPv4 多 播 地 址 空间 被 进一步 划分 为 本 地 范围 (local scope) 和 组 织 机构 
局 部 范围 Corganization-local scope), 其 中 前 者 类 似 于 IPv6 的 网 点 局 部 范围 (但 是 语义 上 不 等 价 )。 
图 21-3 汇 总 了 不 同 的 范围 划分 规则 。 
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图 21-3 ”IPv4 和 IPv6 多 播 地 址 范围 


21.2.4 ”多 播 会 话 


特别 是 在 流 式 多 媒体 应 用 中 ， 一 个 多 播 地 址 〈IPv4 或 ITPv6 地 址 》 和 一 个 传输 层 端口 〈 通 
常 是 UDP 端口 ) 的 组 合 称 为 一 个 会 话 (session )。 举 例 来 说 ， 一 个 音频 /视频 电话 会 议 可 能 由 两 
个 会 话 构成 : 一 个 用 于 音频 ， 一 个 用 于 视频 。 这 些 会 话 几乎 总 是 使 用 不 同 的 端口 ， 有 时 还 使 
用 不 同 的 多 播 组 ， 以 便 接 收 时 灵活 地 选取 ， 例 如 有 的 客户 可 能 选择 只 接收 音频 会 话 ， 而 有 的 
客户 可 能 选择 同时 接收 音频 和 视频 会 话 。 要 是 不 同 会 话 使 用 相同 的 组 地 址 ， 这 种 选择 就 不 大 
可 能 做 到 。 

21.8 局域网 上 多 播 和 广播 的 比较 0 

我 们 现在 返回 到 图 20-3 和 图 20-4 中 展示 的 例子 ， 看 看 在 多 播 情 况 下 将 发 生 什么 。 我 们 以 图 
21-4 所 示 的 IPv4 情 形 作为 例子 ， 不 过 IPv6 涉 及 的 步骤 与 之 类 似 。 

右 侧 主机 上 的 接收 应 用 进程 启动 ， 并 创建 一 个 UDP 套 接 字 ， 捆绑 端口 123 到 该 套 接 字 上 ， 然 
后 加 入 多 播 组 224.0.1.1。 我 们 不 久 将 看 到 这 种 “加 入 ”(joining) 操作 通过 调用 setsockopt 完 成 。 
上 述 操作 完成 之 后 ，IPv4 层 内 部 保存 这 些 信息 ， 并 告知 合适 的 数据 链 路 接收 目的 以 太 网 地 址 为 
01:00:5e:00:01:01 的 以 太 网 帧 ‘TCPv2 的 12.11 节 )。 该 地 址 是 与 接收 应 用 进程 刚 加 入 的 多 播 
地 址 对 应 的 以 太 网 地 址 ， 其 中 所 用 映射 方法 如 图 21-1 所 示 。 

下 一 个 步骤 是 左 侧 主 机 上 的 发 送 应 用 进程 创建 一 个 UDP 套 接 字 ， 往 下 地 址 224.0.1.1 的 123 端 
口 发 送 一 个 数据 报 。 发 送 多 播 数据 报 无 需 任何 特殊 处 理 ; 发 送 应 用 进程 不 必 为 此 加 入 多 播 组 。 
发 送 主机 把 该 耻 地 址 转换 成 相应 的 以 太 网 目的 地 址 ， 再 发 送 承 载 该 数据 报 的 以 太 网 帧 。 注 意 该 
帧 中 同时 含有 目的 以 太 网 地 址 〈 由 接口 检查 )》 和 目的 了 地 址 〈 由 卫 层 检查 )。 


21.5 局 域 网 上 多 播 和 广播 的 比较 437 






H sendto 
| 目的 IP=224.0.1.1 
目的 端口 =123 









加 入 224.0.1.1 





基于 日 的 人 P 地 址 
的 完备 软件 过 滤 







接收 
01:00:5e: 
00:01:01 








基于 目的 以 太 
网 地 址 的 不 完 







目的 以 太 网 =01:00:5e:00:01:0 


帧 类 型 =0800 目的 端口 =123 


目的 IP=224.0.1.1 
协议 =UDP 
图 21-4 UDP 数据 报 多 播 示 例 


我 们 假设 中 间 主 机 不 具备 IPv4 多 播 能 力 ( 因 为 IPv4 多 播 支持 是 可 选 的 )。 它 将 完全 忽略 该 帧 ， 
AlA (1) 该 帧 的 目的 以 太 网 地 址 不 匹配 该 主机 的 接口 地 址 ，(2) 该 帧 的 目的 以 太 网 地 址 不 是 以 
太 网 广播 地 址 ，(3) 该 主机 的 接口 未 被 告知 接收 任何 组 地 址 (高 序 字 节 的 低 序 位 被 置 为 1 的 以 太 
网 地 址 ， 如 图 21-1 所 示 )。 

该 帧 基于 我 们 所 称 的 不 完备 过 滤 〈imperfectfiltering) 被 右 侧 主机 的 数据 链 路 接收 ， 其 中 的 
过 滤 操 作 由 相应 接口 使 用 该 帧 的 以 太 网 目的 地 址 执行 。 我 们 之 所 以 说 这 种 过 滤 不 完备 是 因为 尽 
管 我 们 告知 该 接口 接收 以 某 个 特定 以 太 网 组 地 址 为 目的 地 址 的 帧 ， 通 常 它 也 会 接收 以 其 他 以 太 
网 组 地 址 为 目的 地 址 的 帧 。 


当 我 们 告知 一 个 以 太 网 接口 接收 目的 地 址 为 某 个 特定 以 太 网 组 地 址 的 帧 时 ， 许 多 当前 的 
以 太 网 接口 卡 对 这 个 地 址 应 用 某 个 散 列 (hash) 函数 ， 计 算出 一 个 介 于 0 和 511 之 间 的 值 ， 然 
后 把 该 值 在 一 个 512 位 数位 数组 中 对 应 的 位 置 1. 当 有 一 个 目的 地 为 某 个 组 地 址 的 帧 在 线 缆 上 
经 过 时 ， 接 口 对 其 目的 地 址 应 用 同样 的 散 列 函数 ， 计 算出 一 个 介 于 0 和 511 之 间 的 值 。 如 果 该 
值 在 同一 个 数组 中 对 应 的 位 为 1， 那 就 接收 这 个 帧 ; 否则 忽略 这 个 帧 。 较 老 的 网 络 接口 卡 所 用 
数位 数组 仅 有 64 位 ， 把 它 增加 到 512 位 可 以 减少 接口 接收 非 关 注 帧 的 可 能 性 。 随 着 时 间 的 推移 
和 越 来 越 多 的 应 用 系统 使 用 多 播 ， 数 位 数组 的 大 小 可 能 进一步 增加 。 当 今 有 些 接口 卡 已 经 实 
现 完 备 过 滤 (perfect filtering )。 另 有 些 接 口 卡 根 本 没有 多 播 过 滤 ， 当 告知 它们 接收 某 个 特定 
组 地 址 时 ， 它 们 必须 接收 所 有 的 多 播 帧 (有 时 称 为 “multicast promiscuous” 多 播 混杂 模式 )。 
有 一 款 流行 的 接口 卡 既 具备 容量 为 16 个 组 地 址 的 完备 过 滤 能 力 , 又 有 一 个 512 位 的 散 列 结果 数 
位 数组 作为 补充 。 另 有 一 款 接口 卡 能 够 为 80 个 组 地 址 的 执行 完备 过 滤 ， 超 出 容量 后 却 不 得 不 
进入 多 播 混杂 模式 。 即使 接口 执行 完备 过 滤 ，IP 层 的 完备 软件 过 滤 仍然 是 必需 的 ， 因 为 从 IP 
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多 播 地 址 到 硬件 地 址 的 映射 不 是 一 对 一 的 ， 


右 侧 主机 的 数据 链 路 收取 该 帧 后 ， 把 由 该 帧 承载 的 分 组 传递 到 IP 层 ， 因 为 该 以 太 网 帧 的 类 
型 为 IPv4。 既 然 收 到 的 分 组 以 某 个 多 播 IP 地 址 作为 目的 地 址 ，IP 层 于 是 比较 该 地 址 和 本 机 的 接 
收 应 用 进程 已 经 加 入 的 所 有 多 播 地 址 ， 根 据 比 较 结果 确定 是 接受 还 是 丢弃 该 分 组 。 我 们 称 这 个 
操作 为 完备 过 滤 (perfect filtering)， 因 为 它 基 于 IPv4 报 头 中 完整 的 32 位 D 类 地 址 执行 。 在 本 例子 
中 ，IP 层 接受 该 分 组 并 把 承载 在 其 中 的 UDP 数据 报 传递 到 UDP 层 ，UDP 层 再 把 承载 在 UDP 数据 
报 中 的 应 用 数据 报 传递 到 绑 定 了 端口 123 的 套 接 字 。 

图 21-4 中 没有 展示 的 还 有 以 下 三 种 情形 。 

(1) 运行 所 加 入 多 播 地 址 为 225.0.1.1 的 某 个 应 用 进程 的 一 个 主机 。 既 然 多 播 地 址 组 ID 的 高 5 
位 在 到 以 太 网 地 址 的 映射 中 被 忽略 ， 该 主机 的 接口 也 将 接收 目的 以 太 网 地 址 为 
01:00:5e:00:01:01 的 帧 。 这 种 情况 下 ， 由 该 帧 承载 的 分 组 将 由 下层 中 的 完备 过 滤 技 弃 。 

(2) 运行 所 加 入 多 播 地 址 符合 以 下 条 件 的 某 个 应 用 进程 的 一 个 主机 : 由 这 个 多 播 地 址 映射 成 
的 以 太 网 地 址 恰好 和 01 :00:5e:00:01:01 一 样 被 该 主机 执行 非 完备 过 滤 的 接口 散 列 到 同一 个 结 
果 。 该 接口 也 将 接收 目的 以 太 网 地 址 为 01:00:5e:00:01:01 的 帧 , 直到 由 数据 链 路 层 或 人 P 层 丢弃 。 

(3) 目的 地 为 相同 多 播 组 (224.0.1.1) 不 同 端口 〈 璧 如 4000) 的 一 个 数据 报 。 图 21-4 中 右 侧 
主机 仍然 接收 该 数据 报 ， 并 由 JP 层 接 受 并 传递 给 UDP 层 ， 不 过 UDP 层 将 丢弃 它 〈 假 设 绑 定 端口 
4000 的 套 接 字 不 存在 )。 


这 种 情形 表明 让 一 个 进程 接收 某 个 多 播 数 据 报 的 先决 条 件 是 该 进程 加 入 相应 多 播 组 并 绑 
定 相 应 端口 。 


正如 上 一 节 所 述 ， 单 个 局 域 网 上 的 多 播 是 简单 的 。 一 个 主机 发 送 一 个 多 播 分 组 ， 对 它 感 兴 
趣 的 任何 主机 接收 该 分 组 。 多 播 相 对 于 广播 的 优势 在 于 不 会 给 对 多 播 分 组 不 感 兴趣 的 主机 增加 
额外 负担 。 

广域网 也 可 以 从 多 播 中 受益 。 考 虑 如 图 21-5 所 示 的 广域网 ， 其 中 5 个 局 域 网 通过 5 个 多 播 路 
由 器 互 连 。 








图 21-5 ”用 5 个 多 播 路 由 器 互 连 的 5 个 局 域 网 
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假设 在 其 中 的 5 个 主机 上 启动 了 某 个 程序 〈 璧 如 说 监听 某 个 多 播音 频 会 话 的 一 个 程序 )， 而 
且 这 5 个 程序 ( 实 为 进程 ) 加 入 了 一 个 给 定 多 播 组 (我们 也 说 这 5 个 主机 加 入 了 那个 多 播 组 )。 另 
外 假设 每 个 多 播 路 由 器 与 其 邻居 多 播 路 由 器 的 通信 使 用 某 个 多 播 路 由 协议 (multicast routing 


protocol)， 我 们 就 用 MRP 指称 。 图 21-6 展 示 了 整个 情形 。 
加 入 组 


d LI le 





加 入 组 





加 入 组 加 入 组 
图 21-6 广域网 上 5 个 主机 加 入 一 个 多 播 组 


当 某 个 主机 上 的 一 个 进程 加 入 一 个 多 播 组 时 ， 该 主机 向 所 有 直接 连接 的 多 播 路 由 器 发 送 一 
个 IGMP 消 息 ， 告 知 它们 本 主机 已 加 入 了 那个 多 播 组 。 多 播 路 由 器 随后 使 用 MRP 交换 这 些 信息 ， 
这 样 每 个 多 播 路 由 器 就 知道 在 收 到 目的 地 为 所 加 入 多 播 地 址 的 分 组 时 该 如 何 处 理 。 


多 播 路 由 仍然 是 一 个 活跃 的 研究 课题 ， 单 纯 讨 论 它 就 极 可 能 耗费 一 本 书 的 容量 。 


接着 假设 左上 方 主机 上 的 一 个 进程 开始 发 送 目的 地 为 那个 给 定 多 播 地 址 的 分 组 。 辟 如 说 这 
个 进程 发 送 的 是 那些 多 播 接收 进程 正 等 着 接收 的 音频 分 组 。 图 21-7 展 示 了 这 些 分 组 。 


加 入 组 





图 21-7 广域网 上 发 送 多 播 分 组 
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我 们 可 以 跟踪 这 些 多 播 分 组 从 发 送 进程 游 走 到 所 有 接收 进程 所 经 历 的 步骤 。 
e 这 些 分 组 在 左上 方 局 域 网 上 由 发 送 进程 多 播发 送 。 接 收 主机 Hl 接 收 这 些 分 组 〈 因 为 它 已 
经 加 入 给 定 多 播 组 )， 多 播 路 由 器 MR1 也 接收 这 些 分 组 (因为 每 个 多 播 路 由 器 都 必须 接 
收 所 有 多 播 分 组 )。 
e MR1 把 这 些 多 播 分 组 转发 到 MR2， 因 为 MRP 已 经 通告 MR1: MR2 需 要 接收 目的 地 为 给 定 
多 播 组 的 分 组 。 
e MR2 在 直接 连接 的 局 域 网 上 多 播发 送 这 些 分 组 ， 因 为 该 局 域 网 上 的 主机 H2 和 H3 属 于 该 
多 播 组 。MR2 还 向 MR3 发 送 这 些 分 组 的 一 个 副本 。 
e 像 MR2 那 样 对 分 组 进行 复制 是 多 播 转发 所 特有 的 。 单 播 分 组 在 被 路 由 器 转发 时 从 不 被 复 
制 。 
e MR3 把 这 些 多 播 分 组 发 送 到 MR4， 但 是 不 在 直接 连接 的 局 域 网 上 多 播 这 些 分 组 ， 因 为 我 
们 假设 该 局 域 网 上 没有 主机 加 入 该 多 播 组 。 
e MR4 在 直接 连接 的 局 域 网 上 多 播发 送 这 些 分 组 ， 因 为 该 局 域 网 上 的 主机 H4 和 H5 属 于 该 
多 播 组 。 它 并 不 向 MR5 发 送 这 些 分 组 的 一 个 副本 ， 因 为 直接 连接 MR5 的 局 域 网 上 没有 主 
机 属于 该 多 播 组 ， 而 MR4 已 经 根据 与 MR5 交 换 的 多 播 路 由 信息 知道 这 一 点 。 
广域网 上 作为 多 播 替代 手段 的 两 个 不 大 合意 的 方法 是 广播 泛滥 (broadcast flooding) 以 及 给 
每 个 接收 者 发 送 单个 副本 。 使 用 第 一 种 方法 时 ， 分 组 由 发 送 进程 广播 发 送 ， 每 个 路 由 器 在 除 分 
组 到 达 接 口外 的 所 有 其 他 接口 广播 发 送 这 些 分 组 。 显 然 ， 这 个 方法 将 增加 对 这 些 分 组 不 感 兴趣 
但 又 必须 处 理 它们 的 主机 和 路 由 器 的 数目 。 
使 用 第 二 个 方法 时 ， 发 送 进程 必须 知道 所 有 接收 进程 的 下 地 址 并 且 给 每 个 接收 进程 发 送 一 
个 副本 。 对 于 图 21-7 所 示 的 5 个 接收 主机 情形 而 言 ， 这 个 方法 要 求 在 发 送 主 机 的 局 域 网 上 出 现 5 
个 分 组 ， 从 MR1 到 MR2 走 4 个 分 组 ， 从 MR2 到 MR3 再 到 MR4 走 2 个 分 组 。 


广域网 上 的 多 播 因为 多 个 原因 而 难以 部 署 。 最 大 的 问题 是 运行 MRP 要 求 每 个 多 播 路 由 器 接 
收 来 自 所 有 本 地 接收 主机 的 多 播 组 加 入 及 其 他 请 求 ， 并 在 所 有 多 播 路 由 器 之 间 交 换 这些 信 息 ; 
多 播 路 由 器 的 转发 功能 要 求 把 来 自 网 络 中 任何 发 送 主机 的 数据 复制 并 发 送 到 网 络 中 任何 接收 主 
机 。 另 一 个 大 问题 是 多 播 地 址 的 分 配 : IPv4 没 有 足够 数量 的 多 播 地 址 可 以 静态 地 分 配给 想 用 的 
任何 多 播 应 用 系统 使 用 。 要 在 广 域 范围 发 送 多 播 分 组 而 又 不 与 其 他 多 播发 送 进程 冲突 ， 多 播 应 
用 系统 就 得 使 用 唯一 的 地 址 ， 然 而 全 球 性 的 多 播 地 址 分 配 机 人 制 尚未 出 现 。 

源 特定 多 播 《source-specific multicast, SSM) [Holbrook and Cheriton 1999] 给 出 了 这 些 问 
题 的 一 个 务实 的 解决 办 法 。SSM 把 应 用 系统 的 源 地 址 结合 到 组 地 址 上 ， 从 而 在 有 限 程 度 上 如 下 
地 解决 了 这 些 问题 : 

e 接收 进程 向 多 播 路 由 器 提供 发 送 进程 的 源 地 址 作为 多 播 组 加 入 操作 的 一 部 分 。 这 么 做 可 

以 降低 多 播 路 由 器 就 每 个 分 组 的 转发 聚 散 度 ， 因 为 每 个 接收 进程 都 必须 知道 源 地 址 。 这 
么 做 还 保留 了 多 播 地 址 的 包容 性 ， 因 为 发 送 进程 无 需 知道 任何 接收 进程 的 地 址 。 

e. 把 多 播 组 的 标识 从 单纯 多 播 组 地 址 细 化 为 单 播 源 地 址 和 多 播 目的 地 址 之 组 合 (SSM 称 之 
为 通道 ) 。 这 一 点 意味 着 发 送 进程 可 以 挑选 任何 多 播 地 址 ， 因 为 现在 源 地 址 和 目的 地 址 
的 组 合 是 必须 唯一 的 ， 而 源 地 址 本 身 往 往 已 经 使 得 该 组 合 唯 一 了 。SSM 会 话 由 源 地 址 、 
目的 地 址 和 端口 三 者 的 组 合 标识 。 


RE tr hE EEE EE ram A AN 











21.6 ”多 播 套 接 字 选 项 441 


SSM 还 提供 一 定 的 反 窃 听 Canti-spoofing) 能 力 ， 也 就 是 说 ， 让 源 2 在 源 1 的 通道 上 发 送 较为 
困难 ， 因 为 源 1 的 通道 包含 了 源 1 的 源 地 址 。 当 然 窃听 仍然 是 可 能 的 ， 不 过 要 困难 得 多 。 


A6 a (00000 


传统 意义 的 多 播 API 支 持 只 需要 5 个 套 接 字 选 项 。SSM 所 需 的 源 过 滤 (source filtering) 额外 
要 求 多 播 API 支 持 新 增 4 个 套 接 字 选 项 。 图 21-8 给 出 了 与 组 成 员 无 关 的 3 个 套 接 字 选 项 的 IPv4 和 
IPv6 版 本 以 及 它们 在 getsockopt 或 setsockopt 调 用 中 期 望 第 四 个 参数 指向 的 数据 类 型 ,图 21-9 
给 出 了 与 组 成 员 相 关 的 6 个 套 接 字 选 项 的 [Pv4、IPv6 和 与 他 版 本 无 关 的 API。 所 有 9 个 选项 对 于 
setsockopt 都 是 合法 的 ， 但 是 加 入 和 离开 多 播 组 或 源 的 6 个 选项 却 不 允许 用 在 get sockopt 中 。 
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1P MULTICAST IF struct in_addr 指定 外 出 多 播 数据 报 的 默认 接口 
IP MULTICAST TTL u char 指定 外 出 多 播 数据 报 的 TTL 
IP MULTICAST LOOP u char 开启 或 禁止 外 出 多 播 数据 报 的 回馈 


IPV6 MULTICAST IF 指定 外 出 多 播 数据 报 的 默认 接口 
IPV6. MULTICAST HOPS i 指定 外 出 多 播 数 据 报 的 跳 限 
IPV6 MULTICAST LOOP 开启 或 禁止 外 出 多 播 数据 报 的 回馈 


图 21-8 组 成 员 无 关 多 播 套 接 字 选 项 


IP ADD MEMBERSHIP struct ip mreq a 加 入 一 个 多 播 组 三 j 
IP_DROP_MEMBERSHIP struct ip_mreq 离开 一 个 多 播 组 

IP BLOCK SOURCE struct ip mreq source 在 一 个 已 加 入 组 上 阻塞 某 个 源 
IP_UNBLOCK_SOURCE struct ip_mreq_source 开通 一 个 早先 阻塞 的 源 

IP ADD SOURCE MEMBERSHIP struct ip mreq source 加 入 一 个 源 特定 多 播 组 


IP DROP. SOURCE MEMBERSHIP struct ip mreq source AR- -个 源 特 定 £dd 





1PV6 JOIN CROUP | struct ipv6 mreg 加 入 一 个 多 播 组 d 
MCAST JOIN GROUP struct group. req 加 入 一 个 多 播 组 

MCAST LEAVE GROUP struct group req 离开 一 个 多 播 组 
MCAST_BLOCK_SOURCE struct group source req 在 一 个 已 加 入 组 上 阻塞 某 个 源 
MCAST_UNBLOCK_SOURCE struct group source req 开通 一 个 早先 阻塞 的 源 


MCAST JOIN SOURCE GROUP struct group Source req 加 入 一 个 源 特 定 多 播 组 
MCAST LEAVE SOURCE GROUP struct group source, req 离开 一 个 源 特定 多 播 组 
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JPv4 的 TTL 和 回馈 选项 取 u_char 类 型 的 参数 ， 而 IPV6 的 跳 限 和 回馈 选项 分 别 取 int 和 
u_int 这 两 个 类 型 的 参数 。 图 7-1 中 大 多 数 其 他 套 接 字 选 项 都 取 整 数 作 为 参数 ， 因 此 使 用 IPv4 
多 播 选 项 的 一 个 常见 编程 错误 就 是 作为 nt 参数 指定 TTL 或 回馈 调用 setsockopt (这 是 不 允 
许 的 ， 见 TCPv2 第 354 ~ 355 页 )。IPv6 所 做 的 改动 使 得 它们 与 其 他 选项 更 为 一 致 。 


我 们 接着 详细 讲解 这 9 个 套 接 字 选 项 。 注意 它 们 在 IPv4 和 IPv6 中 有 相同 的 概念 ， 差别 只 是 名 
字 和 参数 类 型 。 
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1. IP ADD MEMBERSHIP. IPV6 JOIN GROUPÉIMCAST JOIN GROUP 

在 一 个 指定 的 本 地 接口 上 加 入 一 个 不 限 源 的 多 播 组 。 对 于 IPv4 版 本 ， 本 地 接口 使 用 某 个 单 
播 地 址 指定 ， 对 于 IPv6 和 与 协议 无 关 的 API， 本 地 接口 使 用 某 个 接口 索引 指定 。 以 下 3 个 结构 在 
加 入 或 离开 不 限 源 的 多 播 组 时 使 用 。 


struct ip mreq ( 
struct in_addr imr multiaddr; /* IPv4 class D multicast addr */ 
struct in_addr imr, interface; /* iPv4 addr of local interface */ 
}; 


struct ipv6_mreq { 
struct in6 addr ipvémr_multiaddr; /* IPv6 multicast addr */ 
unsigned int ipv6mr interface; /* interface index, or 0 */ 


}; 


struct group req { 
unsigned int gr interface; /* interface index, or 0 */ 
struct sockaddr storage gr group; /* IPv4 or IPv6 multicast addr */ 
Y. 


如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 (INADDR_ANY》〉 或 IPv6 值 为 0 的 索引 ， 那 就 由 内 核 选 


择 一 个 本 地 接口 。 
一 个 主机 在 某 个 给 定 接口 上 属于 一 个 给 定 多 播 组 的 前 提 是 该 主机 上 当前 有 一 个 或 多 个 进程 
在 那个 接口 上 属于 该 组 。 


在 一 个 给 定 套 接 字 上 可 以 多 次 加 入 多 播 组 ， 不 过 每 次 加 入 的 必须 是 不 同 的 多 播 地 址 ， 或 者 
是 在 不 同 接口 上 的 同一 个 多 播 地 址 。 多 次 加 入 可 用 于 多 宿主 机 ， 例 如 创建 一 个 套 接 字 后 对 于 一 
个 给 定 多 播 地 址 在 每 个 接口 上 执行 一 次 加 入 。 

回顾 图 21-3， 我 们 知道 IPv6 多 播 地址 显 式 存在 一 个 范围 字段 。 我 们 还 指出 ， 仅 仅 范 围 有 差 
异 的 IPv6 多 播 地 址 代表 不 同 的 多 播 组 。 因 此 如 果 某 个 NTP 实 现 想 要 不 论 范 围 接 收 所 有 NTP 分 组 ， 
它 就 必须 加 入 ff01::101〔 接 口 局 部 )、ff02::101〔( 链 路 局 部 )、ff05::101 《网 点 局 部 )、 
££08::101 (组织 机 构 局 部 ) 和 ff0e: :101 (全 球 )。 所 有 这 些 加 入 都 可 以 在 单个 套 接 字 上 执行 ， 
而 且 可 以 通过 设置 TPV6_PKTINFO 套 接 字 选 项 (22.8 节 ) 让 recvmsg 返 回 每 个 数据 报 的 目的 地 址 。 

PP 协议 无 关 的 套 接 字 选 项 CMCAST. JOIN GROUP) 与 IPv6 版 本 几乎 相同 ， 差 别 只 是 改 用 一 个 
sockaddar_storage 结 构 代 替 in6_addr 结 构 传 递 多 播 组 地 址 。sockadar_storage 应 足以 存放 系 
统 支持 的 任何 类 型 的 地 址 。 


大 多 数 实现 对 于 每 个 套 接 字 上 允许 执行 加 入 的 次 数 有 一 个 限制 。IPv4 的 这 个 限制 通常 由 
常 值 1P_MAX_MEMBERSHIPS 指 定 ， 对 于 源 自 Berkeley 的 实现 其 值 往往 是 20. 

当 不 指定 在 其 上 执行 加 入 的 接口 时 , 源 自 Berkeley 的 内 核 在 普通 的 IP 路 由 表 中 查找 给 定 多 
播 地 址 并 使 用 找 出 的 接口 (TCPv2 第 357 页 )。 为 了 处 理 这 种 情形 ， 有 些 系统 在 初始 化 阶段 为 
所 有 多 播 地 址 安装 一 个 路 径 (对 于 IPv4 就 是 目的 地 址 为 224.0.0.0/8 的 路 径 )。 ? 

IPv6 和 协议 无 关 版 本 改 用 接口 索引 指定 接口 ， 以 取代 IPv4 版 本 使 用 本 地 单 播 地 址 指定 接 
口 的 做 法 , 意图 在 于 允许 在 未 指定 网 络 地 址 的 ( unnumbered ) 接 口 或 隧道 端点 ( tunnel endpoint ) 
上 执行 加 入 . 

原始 的 IPv6 多 播 API 定 义 使 用 了 IPV6_ADD_MEMBERSHIP 而 不 是 IPV6_JOIN_GROUP. 
稍 后 讲解 的 mcast_join 函 数 隐 藏 了 这 两 个 版 本 的 差异 。 


O 原 书 中 给 出 的 IPv4 的 所 有 多 播 地 址 为 224.0.0.0/8， 但 译 者 认为 应 该 是 224.0.0.0/4〈 见 21.2 节 )。224.0.0.0/8 仅 仅 是 
其 中 的 链 路 局 部 多 播 地址 的 一 个 超 集 。 一 一 诺 者 注 
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2.IP DROP MEMBERSHIP. IPV6 LEAVE GROUPTIMCAST LEAVE GROUP 

离开 指定 的 本 地 接口 上 不 限 源 的 多 播 组 。 我 们 刚才 给 出 的 加 入 不 限 源 多 播 组 所 用 的 结构 同 
样 适用 于 本 套 接 字 选项 的 各 种 版 本 。 如 果 未 指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 值 为 
INADDR_ANY， 对 于 IPv6 为 0 值 接口 索引 )， 那 么 抹 除 首 个 匹配 的 多 播 组 成 员 关系 。 

如 果 一 个 进程 加 入 某 个 多 播 组 后 从 不 显 式 离开 该 组 ， 那 么 当 相 应 套 接 字 关 闭 时 〈 因 显 式 地 
关闭 , 或 因 进 程 终止 ), 该 成 员 关 系 也 自动 地 抹 除 。 单 个 主机 上 可 能 有 多 个 套 接 字 各 自 加 入 相同 
的 多 播 组 ,这 种 情况 下 ,单个 套 接 字 上 成 员 关 系 的 抹 除 不 影响 该 主机 继续 作为 该 多 播 组 的 成 员 ， 
直到 最 后 一 个 套 接 字 也 离开 该 多 播 组 。 


原始 的 IPvV6 多 播 API 定 义 使 用 了 IPV6_DROP_MFEMBERSHIP 而 不 是 IPV6_LEAVE_ 
GROUP。 稍 后 讲解 的 mcast_leave 函 数 隐藏 了 这 两 个 版 本 的 差异 。 


3. IP_BLOCK_SOURCE 和 NMCRAST_BLOCK_SOURCE 

对 于 一 个 所 指定 本 地 接口 上 已 存在 的 一 个 不 限 源 的 多 播 组 ， 在 本 套 接 字 上 阻塞 接收 来 自 某 
个 源 的 多 播 分 组 。 如 果 加 入 同一 个 多 播 组 的 所 有 套 接 字 都 阻塞 了 相同 的 源 ， 那 么 主机 系统 可 以 
通知 多 播 路 由 器 这 种 分 组 流通 不 再 需要 ， 并 可 能 由 此 影响 网 络 中 的 多 播 路 由 。 该 套 接 字 选项 可 
用 于 忽略 譬如 说 来 自 无 赖 发 送 进程 的 分 组 流通 。 对 于 IPv4 版 本 ， 本 地 接口 由 某 个 单 播 地 址 指定 ; 
对 于 与 IP 协 议 无 关 的 API， 本 地 接口 由 某 个 接口 索引 指定 。 以 下 2 个 结构 在 阻塞 或 开通 某 个 源 时 
使 用 。 


struct ip mreq source { 


struct in_addr imr_multiaddr; /* 1Pv4 class D multicast addr */ 
struct in_addr imr sourceaddr; /* IPv4 source addr */ 
struct in_addr imr_interface; /* IPv4 addr of local interface */ 


"m 


struct group source req { 


unsigned int gsr interface; /* interface index, or 0 */ 
struct sockaddr storage  gsr. group; /* IPv4 or IPv6 multicast addr */ 
struct sockaddr storage Jgsr source; /* IPv4 or IPv6 source addr */ 


}; 
如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 (INADDR_ANY) 或 与 协议 无 关 的 API 的 0 值 索 引 ， 那 就 
由 内 核 选 择 与 首 个 匹配 的 多 播 组 成 员 关 系 对 应 的 本 地 接口 。 

源 阻 塞 请 求 修改 已 存在 的 组 成 员 关 系 ， 因 此 必须 已 经 使 用 IP_ADD_MPEMBERSHIP、 
IPV6_JOIN_GROUP 或 MCAST_JOIN_GROUP 在 对 应 的 接口 上 加 入 对 应 的 多 播 组 。 
4. IP UNBLOCK SOURCERIMCAST UNBLOCK SOURCE 

开通 一 个 先前 被 阻塞 的 源 。 我 们 刚才 给 出 的 用 于 阻塞 某 个 源 的 结构 同样 适用 于 本 套 接 字 选 
项 的 各 种 版 本 。 

如 果 未 指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 值 为 INADDR_ANY， 对 于 与 协议 无 关 的 API 为 0 
值 索引 )， 那 么 开通 首 个 匹配 的 被 阻塞 源 。 
5. IP_ADD SOURCE MEMBERSHIP#NMCAST JOIN SOURCE GROUP 

在 一 个 指定 的 本 地 接口 上 加 入 一 个 特定 于 源 的 多 播 组 。 我 们 刚才 给 出 的 用 于 阻塞 或 开通 某 
个 源 的 结构 同样 适用 于 本 套 接 字 选 项 的 各 种 版 本 。 在 这 个 本 地 接口 上 绝 不 能 作为 不 限 源 的 多 播 
组 已 经 或 将 要 使 用 IP_ADD_MEMBERSHIP、IPV6_JOIN_GROUP 或 MCAST_JOIN_GROUP 加 入 这 个 多 
Tea. 

如 果 本 地 接口 指定 为 IPv4 的 通 配 地 址 (INADDR_ANY) 或 与 协议 无 关 的 API 的 0 值 索 引 ， 那 就 
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[562] 由 内 核 选择 一 个 本 地 接口 。 


6. ITP_DROP_SOURCE_MEMBERSHIP 和 MCAST_LERAVE_SOURCE_GROUP 

在 一 个 指定 的 本 地 接口 上 离开 一 个 特定 于 源 的 多 播 组 。 我 们 刚才 给 出 的 用 于 阻塞 或 开通 某 
个 源 的 结构 同样 适用 于 本 套 接 字 选项 的 各 种 版 本 。 如 果 未 指定 本 地 接口 (也 就 是 说 对 于 IPv4 其 
值 为 INADDR_ANY， 对 于 与 协议 无 关 的 API 为 0 值 接口 索引 )， 那 么 抹 除 首 个 匹配 的 特定 于 源 的 多 
播 组 成 员 关 系 。 

如 果 一 个 进程 加 入 某 个 特定 于 源 的 多 播 组 后 从 不 显 式 离开 该 组 ， 那 么 当 相 应 的 套 接 字 关闭 
时 《或 因 显 式 地 关闭 ， 或 因 进 程 终止 )， 该 成 员 关 系 也 自动 地 抹 除 。 单 个 主机 上 可 能 有 多 个 套 接 
字 各 自 加 入 相同 的 源 特 定 多 播 组 ， 这 种 情况 下 ， 单 个 套 接 字 上 成 员 关 系 的 抹 除 不 影响 该 主机 继 
续 作为 该 多 播 组 的 成 员 ， 直 到 最 后 一 个 套 接 字 也 离开 该 多 播 组 。 
7. ITP_MULTICRST_IF 和 ITPV6_MULTICRAST_IF 

指定 通过 本 套 接 字 发 送 的 多 播 数 据 报 的 外 出 接口 。 对 于 IPv4 版 本 ， 该 接口 由 某 个 in_adar 
结构 指定 ; 对 于 IPv6, 该 接口 由 某 个 接口 索引 指定 。 如果 其 值 对 于 IPv4 为 INADDR_ANY, 对 于 IPv6 
为 0 值 接口 索引 , 那么 先前 通过 本 套 接 字 选 项 指派 的 任何 接口 将 被 抹 除 ， 系统 改 为 每 次 发 送 数 据 
报 都 选择 外 出 接口 。 

注意 仔细 区 分 当 进 程 加 入 多 播 组 时 指定 的 《或 由 内 核 选 定 的 ) 本 地 接口 〈 到 达 多 播 数据 报 
通过 该 接口 接收 〉 以 及 当 进 程 送出 多 播 数据 报时 指定 的 (或 由 内 核 选 定 的 ) 本 地 接口 。 


源 自 Berkeley 的 内 核 通过 在 普通 的 IP 路 由 表 中 查找 通 往 目 的 多 播 地 址 的 路 径 来 选择 多 播 
数据 报 的 默认 外 出 接口 。 同 样 的 技术 也 用 于 选择 接收 接口 ， 前 提 是 进程 在 加 入 多 播 组 时 未 指 
定 这 个 接口 。 这 里 假定 如 果 存 在 通 往 某 个 给 定 多 播 地 址 的 一 个 路 径 (或 许 是 路 由 表 中 的 默认 
路 径 )， 那 么 该 路 径 对 应 的 接口 应 该 虐 用 于 输出 ， 也 用 于 输入 . 


8. IP_MULTICAST TTL 和 NIPV6 MULTICAST HOPS 

给 外 出 的 多 播 数 据 报 设置 IPv4 的 TTL 或 IPv6 的 跳 限 。 如果 不 指定 , 这 两 个 版 本 就 都 默认 为 1， 
从 而 把 多 播 数 据 报 限制 在 本 地 子 网 。 
9. IP_MULTICAST LOOP 和 IPV6_MULTICAST LOOP 

开启 或 禁止 多 播 数 据 报 的 本 地 自 环 〈 即 回馈 )。 默 认 情 况 下 回馈 开启 : 如 果 一 个 主机 在 某 个 
外 出 接口 上 属于 某 个 多 播 组 ， 那 么 该 主机 上 由 某 个 进程 发 送 的 目的 地 为 该 多 播 组 的 每 个 数据 报 
都 有 一 个 副本 回馈 ， 被 该 主机 作为 一 个 收取 的 数据 报 处 理 。 

类 似 广播 的 是 ， 一 个 主机 上 发 送 的 任何 广播 数据 报 也 被 该 主机 作为 收取 的 数据 报 处 理 (图 
20-4)。( 对 于 广播 而 言 ， 这 种 回馈 无 法 禁止 。) 这 一 点 意味 着 如 果 一 个 进程 同时 属于 所 发 送 数据 
报 的 目的 多 播 组 ， 它 就 会 收 到 自己 发 送 的 任何 数据 报 。 


在 这 里 讨论 的 回馈 是 在 IP 层 或 更 高 层 进行 的 内 部 回馈 。 要 是 接口 听 到 了 自己 发 送 的 比特 
位 流 ，RFC 1112 [ Deering 1989 ] 要 求 驱动 程序 丢弃 这 些 副 本 。 该 RFC 同 时 声明 本 回馈 套 接 字 
选项 默认 情况 下 开启 的 原因 在 于 作为 “一 个 针对 某 些 上 层 协 议 的 性 能 优化 手段 , 这 些 协议 ( 例 
如 路 由 协议 ) 把 一 个 多 播 组 的 成 员 关 系 限定 为 每 个 主机 只 有 一 个 进程 属于 该 多 播 组 ”.. 


上 述 9 个 套 接 字 选项 中 包括 它 们 的 各 种 版 本 )， 前 6 个 影响 多 播 数据 报 的 接收 ， 而 后 3 个 影 
响 多 播 数据 报 的 发 送 〈 外 出 接口 、TTL 或 跳 限 及 回馈 )。 我 们 以 前 提 到 过 多 播 数 据 报 的 发 送 无 需 
任何 特殊 处 理 。 如 果 在 发 送 多 播 数 据 报 之 前 没有 指定 影响 发 送 的 多 播 套 接 字 选 项 ， 那 么 数据 报 
的 外 出 接口 将 由 内 核 选择 ，TTL 或 跳 限 将 为 1， 并 有 一 个 副本 自 环 回来 。 

为 了 接收 目的 地 址 为 某 个 组 地 址 且 目 的 端口 为 某 个 端口 的 多 播 数 据 报 ， 进 程 必 须 加 入 该 多 
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播 组 ， 并 捆绑 该 端口 到 某 个 UDP 套 接 字 。 这 两 个 操作 是 截然 不 同 的， 不 过 都 是 必需 的 。 多 播 组 
加 入 操作 告知 所 在 主机 的 了 P 层 和 数据 链 路 层 接 收发 往 该 组 的 多 播 数据 报 。 端 口 捆绑 操作 则 是 应 
用 进程 向 UDP 指示 它 想 接收 发 往 该 端口 之 数据 报 的 手段 。 有 些 应 用 进程 除 端 口外 还 把 多 播 地 址 
也 捆绑 到 某 个 套 接 字 ， 从 而 防止 所 在 主机 中层 把 为 该 端口 收取 的 目的 地 址 为 其 他 单 播 、 广 播 或 
多 播 地 址 的 数据 报 递送 到 该 套 接 字 。 
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为 了 接收 目的 地 址 为 某 个 多 播 组 目的 端口 为 某 个 端口 的 数据 报 , 历史 上 源 自 Berkeley 的 实 
现 曾 经 只 要 求 某 个 套 接 字 加 入 该 多 播 组 ， 而 这 个 套 接 字 不 必 是 捆绑 该 套 接 字 从 而 接收 这 些 数 
据 报 的 那个 套 接 字 。 然 而 这 些 实现 存在 把 多 播 数 据 报 递送 到 无 多 播 意识 之 应 用 进程 的 潜在 可 
能 性 。 新 的 多 播 内 核 要 求 进程 为 用 于 接收 多 播 数 据 报 的 套 接 字 捆 绑 相应 端口 并 任意 设置 一 个 
多 播 套 接 字 选 项 ， 其 中 后 者 作为 该 应 用 进程 具备 多 播 意识 的 指示 。 最 通常 设置 的 多 播 套 接 字 
选项 是 多 播 组 的 加 入 。Solaris 的 做 法 有 所 不 同 ， 它 只 把 收 到 的 多 播 数据 报 递送 到 了 既 加 入 了 多 
播 组 又 绑 定 了 端口 的 套 接 字 . 为 便于 移植 起 见 ， 所 有 多 播 应 用 程序 都 应 该 加 入 组 并 捆绑 端口 。 

较 新 的 多 播 API 支 持 就 如 Solaris 那 样 强调 加 入 多 播 组 是 接收 多 播 数据 报 的 必要 条 件 : PE 
只 把 多 播 数 据 报 递送 给 已 经 加 入 相应 的 多 播 组 和 /或 单 播 源 的 套 接 字 。 这 个 做 法 是 随 着 
IGMPy3 ( RFC 3376 [ Cain et al. 2002 ]) 而 引入 的 ， 意 在 允许 源 过 滤 和 源 特 定 多 播 。 它 强调 加 
入 组 这 个 需求 ， 而 放松 捆绑 组 地 址 的 需求 【这 个 需求 本 来 就 是 非 必 要 的 )。 然 而 为 便于 移植 起 
见 ， 多 播 应 用 程序 应 该 加 入 组 并 捆绑 端口 和 组 地 址 。 

有 些 较 老 的 具备 多 播 能 力 的 主机 不 允许 把 多 播 地 址 捆绑 到 套 接 字 。 为 了 便于 移植 ， 应 用 
程序 可 以 忽略 binG 多 播 好 址 返回 的 错误 ， 并 用 INRADDR_RANY 或 in6adGr_any 再 次 尝试 bind。 





尽管 多 播 套 接 字 选项 的 IPv4 和 IPv6 版 本 彼此 相似 ， 但 是 仍 有 过 多 的 差别 造成 使 用 多 播 的 协 
议 无 关 代码 因 插 入 大 量 的 #ifdef 伪 代码 而 变 得 凌乱 不 堪 。 一 个 较 好 的 解决 办 法 是 使 用 以 下 12 个 
函数 隐藏 这 些 区 别 。 


à 


#include "unp.h" 


int mcast, join(int sockfd, const struct sockaddr *grp, socklen t grplen, 


int 


const char *ifname, u int ifindex); 
mcast leave(int sock, const struct sockaddr *grp, socklen t grplen); 


mcast block source(int sockfd, 
const struct sockaddr *sre, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 


mcast unblock source(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen t grplen); 


mcast, join source group(int sockfd, 
const struct sockaddr *sre, socklen t. srclen, 
const struct sockaddr *grp, socklen t grplen, 
const char *ifname, v, int ifindex); 


mcast, leave source, group(int sockfd, 
const struct sockaddr *src, socklen t srclen, 
const struct sockaddr *grp, socklen, t grplen); 
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int mcast set if(int sockfd, const char *ifname, wu int ifindex); 
int mcast set loop(int sockfd, int flag); 
int mcast set ttl(int sockfd, int ttl); 
以 上 均 返 回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 

int mcast get if(int sockfd); 

返回 : 若 成 功 则 为 非 负 接 口 索 引 ， 若 出 错 则 为 -1 
int mcast get loop(int sockfd); 

返回 : 若 成 功 则 为 当前 回馈 标志 ， 若 出 错 则 为 -1 
int mcast get ttl(int sockfd) ; 


返回 : 若 成 功 则 为 当前 TTL 或 跳 限 ， 若 出 错 则 为 -1 


mcast_join 加 入 一 个 不 限 源 的 多 播 组 , 该 组 的 人 P 地 址 存放 在 由 grp 指 向 的 长 度 为 grplen 的 套 
接 字 地 址 结构 中 。 我 们 可 以 指定 在 其 上 加 入 该 组 的 接口 ， 或 者 使 用 接口 名 字 一 个 非 空 的 
iframe),， 或 者 使 用 非 零 的 接口 索引 (ifindex)， 著 两 者 都 没有 指定 则 由 内 核 选择 这 个 接口 。 如 前 
所 述 对 于 IPv6， 接 口 通 过 其 索引 指定 给 套 接 字 选项 ， 如 果 给 定 的 是 接口 名 字 ， 那 就 调用 
if_nametoindex 获 取 其 索引 。 对 于 IPv4， 接 口 通过 其 单 播 IP 地 址 指定 给 套 接 字 选 项 : 如 果 给 定 
的 是 接口 名 字 ， 那 就 以 SIOCGIFADDR 请 求 调用 ioct1 函 数 获取 其 单 播 P 地 址 ; 如 果 给 定 的 是 接口 
索引 ， 那 就 先 调 用 if_indextoname 函 数 效 取 其 名 字 ， 再 如 刚才 所 述 处 理 该 名 字 。 


让 用 户 指 定 接口 通常 采用 接口 的 名 字 ( 壁 如 le0 或 ether0 ) ， 而 不 用 接口 的 IP 地 址 或 索 
引 。 举 例 来 说 ，Ecpdump 是 允许 用 户 指 定 接口 的 少数 几 个 程序 之 一 ， 它 的 -ii 选项 以 一 个 接口 
名 字 作 为 参数 ， 


mcast_leave 离 开 一 个 不 限 源 的 多 播 组 ， 该 组 的 IP 地 址 存放 在 由 grp 指 向 的 长 度 为 grplen 的 
套 接 字 地 址 结构 中 。mcast_leave 不 能 指定 早先 在 其 上 加 入 该 组 的 接口 ， 它 总 是 抹 除 首 个 匹配 
的 多 播 组 成 员 关 系 。 这 么 做 简化 了 库 函 数 接口 ， 需 要 针对 接口 控制 组 成 员 关系 的 程序 却 不 得 不 
直接 使 用 setsockopt 函 数 。 

mcast_block_source 阻 塞 接收 从 定单 播 源 到 给 定 多 播 组 的 数据 报 ， 其 中 单 播 源 和 多 播 组 
分 别 由 src 和 grp 指 向 的 长 度 分 别 为 srclen 和 grplen 的 两 个 套 接 字 地 址 结构 给 出 。 本 套 接 字 上 必须 已 
为 给 定 多 播 组 调用 过 mcast_join。 

mcast_unblock_source 开 通 从 给 定单 播 源 到 给 定 多 播 组 的 数据 报 接收 。 所 指定 的 参数 必 
须 与 早先 某 个 mcast_block_source 调 用 一 致 。 

mcast_join_source_group 加 入 一 个 特定 于 源 的 多 播 组 ， 该 源 和 该 组 分 别 由 src 和 grp 指 向 
的 长 度 分 别 为 srclen 和 grplen 的 两 个 套 接 字 地 址 结构 给 出 。 在 其 上 加 入 该 多 播 组 的 接口 可 以 使 用 
接口 名 字 〔 一 个 非 空 的 frame) 或 非 零 的 接口 索引 (ifindex) 指定 ， 若 两 者 都 未 指定 则 由 内 核 选 
择 这 个 接口 。 

mcast_leave_source_group 离 开 一 个 特定 于 源 的 多 播 组 ， 该 源 和 该 组 分 别 由 src 和 grp 指 
向 的 长 度 分别 为 srclen 和 grplen 的 两 个 套 接 字 地 址 结构 给 出 。 与 mcast_leave 一 样 ， 本 函数 也 不 
能 指定 早先 在 其 上 加 入 该 组 的 接口 ， 它 总 是 抹 除 首 个 匹配 的 多 播 组 成 员 关 系 。 
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mcast_set_if 设 置 外 出 多 播 数据 报 的 默认 接口 索引 。 如 果 iframe 非 空 ， 那 么 它 指定 接口 的 
BF; 否则 如 果 六 mdex 大 于 0， 那 么 它 指定 接口 的 索引 。 对 于 IPv6， 接 口 从 名 字 到 索引 的 映射 调 
用 if_nametoindex 完 成 。 对 于 IPv4, 接口 从 名 字 或 索引 到 单 播 IP 地 址 的 映射 使 用 与 ncast_join 
一 样 的 方法 完成 。 

mcast_set_loop 把 回馈 套 接 字 选项 设置 为 1 或 0, mcast_set_tt1 则 设置 IPv4 的 TTL 或 IPv6 
的 跳 限 。3 个 mcast_get_XXX 隧 数 返 回 相 应 的 值 。 


21.7.1 例子 : mcast join 函数 
图 21-10 给 出 了 mcast_join 函 数 的 前 三 分 之 一 部 分 。 这 部 分 处 理 IP 无 关 套 接 字 选项 版 本 。 


X — lib/mcast join.c 








1 #include "unp.h"* 

2 #include <net/if.h> 

3 int 

4 mcast_join(int sockfd, const SA *grp, socklen_t grplen, 

5 const char *ifname, u_int ifindex) 

6 ( 

7 #ifdef MCAST JOIN, GROUP 

8 struct group req req; 

9 if (ifindex » 0) ( 

10 reg.gr interface - ifindex; 

11 ) else if (ifname != NULL) { 

12 if ( (req.gr interface - if nametoindex(ifname)) -- 0) ( 
13 errno - ENXIO; /* i/f name not found */ 

14 return(-1); 

15 } 

16 } else 

17 req.gr_interface = 0; 

18 if (grplen > sizeof(req.gr group)) ( 

19 errno - EINVAL; 

20 return -1; 

21 ) 

22 memcpy(&req.gr group, grp, grplen); 

23 return (setsockopt (sockfd, family to level(grp-»sa family), 
24 MCAST JOIN GROUP, &req, sizeof (reqa))); 
25 #else 


lib/mcast join.c 





图 21-10 ”加 入 一 个 多 播 组 : IP 无 关 套 接 字 


处 理 索 引 
9-17 ”如 果 调 用 者 给 定 接口 索引 ， 那 就 直接 使 用 它 。 否 则 如 果 调 用 者 给 定 接口 名 字 ， 那 就 调 

用 if_nametoindex 把 名 字 转 换 成 索引 。 青 不 然 就 把 接口 索引 置 为 0， 告 知 内 核 去 选择 
接口 。 

复制 地 址 并 调用 setsockopt 

18-22 把 调用 者 给 定 的 套 接 字 地 址 结构 直接 复制 到 一 个 group_regq 结 构 中 。 该 结构 的 
gr_group 成 员 是 一 个 sockaddr_storage 结 构 ， 足 以 存放 系统 支持 的 任何 地 址 类 型 。 
然而 为 了 防备 因 代 码 编写 不 慎 而 引起 缓冲 区 溢出 ， 我 们 仍然 检查 调用 者 给 定 的 套 接 字 
地 址 结构 的 大 小 ， 若 过 大 则 返回 EINVAL 错 误 。 

23-24 ”setsockopt 执 行 组 加 入 操作 。setsockopt 的 level 参 数 由 我 们 的 family_to | level 
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数 根 据 组 地 址 的 地 址 族 确定 。 一 些 系 统 支持 /eve! 参 数 和 套 接 字 地 址 族 的 不 匹配 ， 例 如 
为 MCAST_JOIN_GROUP 甚 至 是 AF_INET6 套 接 字 使 用 IPPROTO_IP， 但 也 并 非 全 部 支持 。 
这 样 一 来 我 们 可 以 把 地 址 族 维持 在 一 个 适当 的 水 平 。 我 们 不 给 出 这 个 无 关 紧 要 的 函数 ， 
不 过 其 源 代 码 同样 随意 可 得 〈 见 前 言 )。 


图 21-11 给 出 了 mcast_join 函 数 的 中 间 三 分 之 一 部 分 。 这 部 分 处 理 IPv4 套 接 字 选 项 版 本 。 


lib/mcast join.c 





26 
27 


处 理 索 引 


switch (grp-»sa family) ( 
case AF INET: ( 
struct ip_mreq mreq; 
struct ifreq ifreq; 


memcpy (&mreq.imr, multiaddr, 
&((const struct sockaddr in *) grp)-»sin addr, 


sizeof(struct in addr)); 


if (ifindex » 0) ( 


if (if indextoname(ifindex, ifreq.ifr name) -- NULL) ( 
errno = ENXIO;/* i/f index not found */ 
return(-1); 


) 
goto doioctl; 

) else if (ifname != NULL) ( 
strncpy(ifreq.ifr name, ifname, IFNAMSIZ); 


doioctl: 
if (ioctl(sockfd, SIOCGIFADDR, &ifreq) < 0) 
return(-i); 


memcpy (&mreq.imr interface, 
&((struct sockaddr in *) &ifreq.ifr addr)-»sin addr, 
sizeof(struct in addr)); 
) else 
mreq.imr interface.s addr - htonl(INADDR ANY); 


return(setsockopt (sockfd, IPPROTO IP, IP, ADD MEMBERSHIP, 
&mreq, sizeof(mreq))); 


lib/mcast join.c 


图 21-11 加 入 一 个 多 播 组 : IPv4 套 接 字 


33-38 ”把 套 接 字 地 址 结构 中 的 IPv4 多 播 地 址 复制 到 一 个 ip_mreqg 结 构 中 。 如 果 调 用 者 给 定 接口 


索引 ， 那 就 调用 if_indextoname 把 接口 名 字 存 入 一 个 ifreq 结 构 中 。 该 调用 成 功 返 回 
后 ， 我 们 往 前 跳 转 以 发 出 ioct1 请 求 。 


处 理 名 字 
39-46 把 调用 者 给 定 的 接口 名 字 复 制 到 一 个 ifred 结 构 中 ， 并 发 出 ioct1 的 sSTOocGIFERADDR 请 求 


返回 与 该 名 字 关 联 的 单 播 地 址 。 把 成 功 返 回 的 IPv4 单 播 地 址 复制 到 那个 ip_mreq 结 构 的 


imr_interface 成 员 。 


指定 默认 设置 


47~48 


如 果 接 口 索引 和 接口 名 字 都 未 给 定 ， 那 就 把 接口 设置 为 通 配 地 址 ， 告 知 内核 去 选择 接 
O. 
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49~50 setsockopt 执 行 组 加 入 操作 。 
图 21-12 给 出 了 mcast_join 函 数 的 后 三 分 之 一 部 分 。 这 部 分 处 理 了 Pv6 套 接 字 选项 版 本 。 


—— — P lib/mcast join.c 
52 #ifdef  IPV6 


53 case AF INET6: { 

54 struct ipv6, mreq mredq6; 

55 memcpy (&mreq6.ipv6mr multiaddr, 

56 &((const struct sockaddr in6 *) grp)-»sin6 addr, 
57 sizeof(struct in6, addr)); 

58 if (ifindex » 0) ( 

59 mreq6.ipv6mr interface = ifindex; 

60 ) else if (ifname != NULL) ( 

61 if ( (mreq6.ipv6mr interface = if nametoindex(ifname)) == 0) ( 
62 errno - ENXIO;/* i/f name not found */ 

63 return(-1); 

64 ) 

65 ) eise 

66 mreq6.ipv6mr interface - 0; 

67 return(setsockopt (sockfd, IPPROTO IPV6, IPV6 JOIN GROUP, 
68 &mreq6, sizeof(mred6))); 

69 } 

70 #endif 

71 default: 

72 errno = EAFNOSUPPORT; 

73 return (-1); 

74 } 

75 #endif 

76 





—lib/mcast join.c 


图 21-12 ”加 入 一 个 多 播 组 : IPv6 套 接 字 


复制 地 址 

55.57 “首先 把 套 接 字 地 址 结构 中 的 IPv6 多 播 地 址 复制 到 一 个 ipv6_mrea 结 构 中 。 

处 理 索引 、 名 字 或 默认 设置 

58-66 如 果 调 用 者 给 定 接口 索引 ， 那 就 把 该 索引 复制 到 ipv6mr_interface 成 员 ; 否则 如 果 调 
用 者 给 定 接口 名 字 ， 那 就 调用 if_nametoindex 取 得 索引 ， 再 不 然 就 把 接口 索引 置 为 0， 
告知 内 核 去 选择 接口 。 

67-68 ”最 后 调用 setsockopt 加 入 组 。 


21.7.2 例子 : mcast set loop 函数 


图 21-13 给 出 了 我 们 的 mcast_set_1oop 函 数 。 

既然 函数 参数 是 一 个 套 接 字 描述 符 而 不 是 一 个 套 接 字 地 址 结构 ， 我 们 于 是 调用 自己 的 
sockfqd_to_family 函 数 获取 该 套 接 字 的 地 址 族 。 随 后 设置 相应 的 套 接 字 选项 。 

我 们 不 再 给 出 其 余 mcast_xxx 驴 数 的 源 代码 ， 不 过 它们 都 是 可 自由 获取 的 ( 见 前 言 )。 
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21.8 (ASN dg cli HD 


—— ————————————— lib/mcast set loop.c 


1 include "unp.h" 

2 int 

3 mcast set loop(int sockfd, int onoff) 

4( 

5 switch (sockfd to family(sockfd)) { 

6 case AF INET: { 

7 uchar flag; ~ 
8 flag = onoff; 

9 return (setsockopt (sockfd, IPPROTO IP, IP_MULTICAST_LOOP, 
10 &flag, sizeof(flag))); 

11 ) 

12 #ifdef  IPV6 

13 case AF INET6: ( 

14 u_int flag; 

15 flag = onoff; 

16 return (setsockopt (sockfd, IPPROTO IPV6, IPV6_MULTICAST_LOOP, 
17 &flag, sizeof(flag))); 

18 } 

19 #endif 

20 default: 

21 errno = EAFNOSUPPORT; 

22 return(-1); 

23 } 

24 ) 


lib/mcast set loop.c 


图 21-13 ”设置 多 播 回馈 选项 





我 们 通过 简单 地 去 掉 setsockopt 调 用 来 修改 图 20-5 中 的 ag_cli 函 数 。 如 前 所 述 , 如 果 外 出 


接口 、TTL 和 回馈 选项 的 默认 设置 可 以 接受 ， 那 么 发 送 多 播 数据 报 无 需 设 置 任何 多 播 套 接 字 选 


项 。 


我 们 指定 所 有 主机 组 为 服务 器 地 址 来 运行 我 们 的 客户 程序 。 


macosx % udpcli01 224.0.0.1 


hi there 
from 172.24.37.78: hi there MacOS X 
from 172.24.37.94: hi there FreeBSD 


所 在 子 网 中 共有 两 个 主机 响应 。 它 们 具备 多 播 能 力 ， 从 而 都 加 入 了 所 有 主机 组 ， 并 且 都 运 


行 着 端口 号 为 7 的 标准 UDP 回 射 服务 器 。 每 个 应 答 数 据 报 都 是 单 播 的 ,因为 请 求 数据 报 的 单 播 源 
地 址 被 每 个 服务 器 用 作 应 答 数据 报 的 目的 地 址 。 


IP 分 片 和 多 播 


我 们 在 20.4 节 末尾 提 过 ， 大 多 数 系统 把 不 允许 对 广播 数据 报 执行 分 片 作为 一 个 决策 。 分 片 


操作 对 于 多 播 数据 报 却 不 成 问题 ， 我 们 可 以 使 用 同一 个 含有 长 度 为 2000 字 节 的 单个 文本 行 的 文 
件 简单 地 验证 。 


macosx $ udpcli01 224.0.0.1 < 20001ine 
from 172.24.37.78: XXXXxxxxxx[...] 
from 172.24.37.94: xxxxxxxxxx[...] 
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IP 多 播 基础 设施 CIP multicast infrastructure〉 是 具备 域 间 多 播 能 力 的 因特网 之 一 部 分 。 多 播 
并 未 在 整个 因特网 上 开通 。IP 多 播 基础 设施 的 前 身 是 作为 一 个 层 登 网 络 从 1992 年 开始 的 MBone 
〈B.2 节 )， 到 1998 年 转 成 作为 因特网 基础 设施 之 一 部 分 部 署 的 多 播 基础 设施 。 多 播 可 能 在 企业 范 
围 内 部 署 较 广 ， 然 而 很 少 是 域 问 卫 多 播 基础 设施 的 构成 部 分 。 

为 了 在 下 多 播 基础 设施 上 接收 一 个 多 媒体 会 议 ， 站 点 只 需要 知道 该 会 议 的 多 播 地 址 及 其 会 
议 数据 流 〈 音 频 和 视频 等 ) 所 用 的 UDP 端口 。 会 话 声明 协议 (Session Announcement Protocol, 
SAP， 见 RFC 2974 [Handley, Perkins, and Whelan 2000]) 描述 会 话 声明 方法 〈 多 播 到 中 多 播 基 
础 设施 上 的 会 话 声明 所 用 的 分 组 首部 和 发 送 频率 ), 会 话 描述 协议 (Session Description Protocol, 
SDP, JLRFC 2327 [Handley and Jacobson 1998 ]) 则 描述 所 声明 的 内 容 (如 何 指定 会 话 的 多 播 
地 址 和 UDP 端口 )。 想 要 在 耻 多 播 基础 设施 上 声明 某 个 会 话 的 站 点 会 周期 性 地 往 一 个 众所周知 的 
多 播 组 和 UDP 端口 发 送 包 含 所 声明 会 话 的 某 个 描述 的 一 个 多 播 分 组 。IP 多 播 基础 设施 上 的 站 点 
运行 一 个 名 为 sr 的 程序 来 接收 这 些 声明 。 这 个 程序 做 许多 工作 ， 不 仅 接收 会 话 声明 ， 而 且 提 
供 一 个 交互 式 的 用 户 界 面 以 显示 这 些 信息 并 允许 用 户 发 送 自己 的 声明 。 

我 们 在 本 节 开 发 一 个 仅仅 接收 这 些 会 话 声明 的 简单 程序 ， 从 而 展示 一 个 简单 的 多 播 接收 程 
序 例 子 。 我 们 的 目的 在 于 展示 多 播 接收 器 程序 的 简单 性 ， 而 不 是 深入 到 其 中 的 细节 。 

图 21-14 给 出 了 接收 定期 多 播 的 SAP/SDP 声 明 的 程序 的 main 函 数 。 


1 #include "unp.h" 


C 





mysdr/main.c 





2 #define SAP NAME "sap.mcast.net" /* default group name and port */ 
3 #define SAP PORT "9875" 
4 void loop(int, socklen t); 
5 int 
6 main(int argc, char **argv) 
7E 
8 int sockfd; 
9 const int on - 1; 
10 Socklen t salen; 
11 struct sockaddr *sa; 
12 if (argc == 1) 
13 sockfd = Udp client(SAP NAME, SAP PORT, (void **) &sa, &salen); 
14 else if (argc == 4) 
15 sockfd = Udp client(argv[1], argv[2], (void **) &sa, &salen); 
16 else 
17 err auit("usage: mysdr «mcast-addr» <port#> «interface-name»"); 
18 Setsockopt (sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)}; 
19 Bind(sockfd, sa, salen); 
20 Mcast, join(sockfd, sa, salen, (argc -- 4) ? argv(3] : NULL, 0); 
21 loop(sockfd, salen); /* receive and print */ 
22 exit (0); 
23 } 


= mysdr/main.c 


图 21-14 SAP/SDP 声 明 接 收 程序 的 main 函 数 


众所周知 的 域名 和 众所周知 的 端口 
2~3 ”赋予 SAP 声 明 的 多 播 地 址 是 224.2.127.254, 它 的 域名 是 sap .mcast .net。 所 有 众所周知 
多 播 地 址 的 DNS 域名 〈 见 http:/www.iana.org/assignments/multicastaddresses ) 都 出 现在 
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mcast .net 层 次 之 下 。 众 所 周知 的 UDP 端口 是 9875。 
创建 UDP 套 接 字 
12-17 “我们 调用 自己 的 uap_client 函 数 查 找 名 字 和 端口 ,并 让 它 把 结果 信息 填写 到 合适 的 套 
接 字 地 址 结构 中 。 如 果 命 令 行 参数 未 曾 指定 ， 我 们 就 使 用 默认 的 名 字 和 端口 ， 否 则 就 
从 命令 行 参数 中 取得 多 播 地 址 、 端 口号 和 接口 名 字 。 
bind 端 口 
.18-19 ”设置 so_REUSEADDR 套 接 字 选 项 以 允许 在 单个 主机 上 运行 本 程序 的 多 个 实例 , 然后 将 给 
定 端口 bind 到 该 套 接 字 。 通 过 将 给 定 多 播 地 址 捆绑 到 该 套 接 字 ， 我 们 防止 该 套 接 字 接 
收 目 的 端口 为 给 定 端口 的 其 他 UDP 数 据 报 。 多 播 地 址 的 捆绑 并 非 必须 ， 不 过 它 提供 了 
由 内 核 过 滤 非 所 关注 分 组 的 手段 。 
加 入 多 播 组 
20 ”调用 mcast_join 函 数 加 入 给 定 组 。 如果 接 口 名 字 已 经 作为 命令 行 参 数 给 定 ， 那 就 把 它 传递 给 
该 函数 ， 否 则 就 让 内 核 去 选择 在 哪个 接口 上 加 入 组 。 
21 ”我 们 调用 图 21-15 中 给 出 的 loop 函 数 读 取 并 显示 所 有 的 声明 。 





一 一 一 一 -一 一 一 一 一 一 一 mysdr/ioopc 
1 #include "mysdr.n" 
2 void 
3 loop(int sockfd, socklen t salen) 
4t 
5 Socklen t len; 
6 ssize t n; 
7 char *p; 
8 struct sockaddr *sa; 
9 struct sap_packet { 
10 uint32 t sap header; 
11 uint32 t sap src; 
12 char sap_data[BUFFSIZE]; 
13 } buf; 
14 sa = Malloc(salen) ; 
15 for (;;) { 
16 len = salen; 
17 n = Recvfrom(sockfd, &buf, sizeof(buf) - 1, 0, sa, &len); 
18 ((char *)&buf){n}] = 0; /* null terminate */ 
19 buf.sap header = ntohl (buf.sap_header) ; 
20 printf("From $s hash 0x%04x\n", Sock ntop(sa, len), 
21 buf.sap header & SAP HASH MASK); 
22 i£ (((buf.sap header & SAP VERSION MASK) »» SAP VERSION SHIFT) » 1) ( 
23 err msg("... version field not 1 (0x$08x)", Dbuf.sap header); 
24 continue; 
25 } 
26 if (buf.sap_header & SAP_IPV6) { 
27 err msg("... IPv6"); 
28 continue; 
29 } 
30 if (buf.sap header & (SAP_DELETE|SAP_ENCRYPTED|SAP_COMPRESSED)) { 
31 err msg("... can't parse this packet type (0x$08x)", 
32 buf.sap header); 
33 continue; 
34 ) 
35 p - buf.sap data « ((buf.sap header & SAP AUTHLEN MASK) 
36 >> SAP AUTHLEN SHIFT); 
37 if (strcmp(p, "application/sdp") == 0) 
38 p += 16; 
39 printf ("$s\n", p); 
40 ) 
41 ) 
mysdr/loop.c 


图 21-15 ”接收 并 显示 SAP/SDP 声 明 的 循环 
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分 组 格式 

9-13 ”sap_packet 结 构 描 述 SDP 分 组 : 一 个 32 位 SAP 首 部 ， 后 跟 一 个 32 位 源 地 址 ， 再 跟 真 正 
的 声明 。 声 明 仅仅 是 若干 行 ISO 8859-1 文 本 ， 不 得 超过 1024 字 节 。 每 个 UDP 数据 报 只 能 
承载 一 个 会 话 声明 。 

读 入 UDP 数据 报 ， 输 出 发 送 者 和 内 容 

15-21 recvfrom 等 待 下 一 个 到 达 套 接 字 的 UDP 数据 报 。 一 个 UDP 数据 报到 达 后 ， 我 们 在 存放 
它 的 缓冲 区 末尾 放置 一 个 空 字 节 ， 修 正 首 部 字段 的 字 节 序 ， 然 后 显示 其 发 送 者 的 IP 地 
址 和 端口 号 ， 并 显示 SAP 散 列 值 。 

检查 SAP 首 部 

22-34 检查 SAP 首 部 ， 确 认 是 否 为 我 们 处 理 的 类 型 。 我 们 不 处 理 在 首部 中 使 用 IPv6 地 址 的 SAP 
分 组 ， 也 不 处 理 压 缩 的 或 加 密 的 分 组 。 

找到 声明 起 始 处 并 显示 

35-39 ” 跳 过 可 能 存在 任何 认证 数据 和 分 组 内 容 类 型 ， 然 后 显示 分 组 的 内 容 。 

图 21-16 给 出 了 出 自 本 程序 的 一 些 典型 输出 。 


freebsd % mysdr 

From 128.223.83.33:1028 hash 0x0000 

v=0 

o=- 60345 0 IN IP4 128.223.214.198 

S-UO Broadcast - NASA Videos - 25 Years of Progress 

i-25 Years of Progress, parts 1-13. Broadcast with Cisco System's 
IP/TV using MPEG1 codec (6 hours 5 Minutes; repeats) More information 
about IP/TV and the client needed to view this program is available 
from http://videolab.uoregon.edu/download.html 

ushttp: //videolab.uoregon.edu/ 

e-Hans Kuhn <multicast@lists.uoregon.edu> 

p-Hans Kuhn «541/346-1758» 

bzAS:1000 

t=0 0 

a=type: broadcast 

a=tool:IP/TV Content Manager 3.2.24 

a=x-iptv-file:1 name y:25yop1234567890123.mpg 

m=video 63096 RTP/AVP 32 31 96 

C-IN IP4 224.2.245.25/127 

a-framerate:30 

a-rtpmap:96 WBIH/90000 

a-x-iptv-svr:video blaster2.uoregon.edu file 1 loop 

m-audio 31954 RTP/AVP 14 96 0 3 5 97 98 99 100 101 102 10 11 103 104 105 106 
c=IN IP4 224.2.216.85/127 

a=rtpmap:96 X-WAVE/8000 

asrtpmap:97 L8/8000/2 

a=rtpmap:98 L8/8000 

a-rtpmap:99 L8/22050/2 

a-rtpmap:100 L8/22050 

a=rtpmap:101 L8/11025/2 

a=rtpmap:102 L8/11025 

a=rtpmap:103 L16/22050/2 

a-rtpmap:104 L16/22050 

a-rtpmap:105 L16/11025/2 

a-rtpmap:106 1116/11025 

a-x-iptv-svr:audio blaster2.uoregon.edu file 1 loop 


图 21-16 ”典型 的 SAP/SDP 声 明 
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这 个 声明 描述 的 是 NASA 在 耻 多 播 基础 设施 上 关于 某 次 航天 飞机 使 命 的 报道 .SDP 会 话 描述 
由 许多 形 如 type=value 格 式 的 文本 行 构成 ， 其 中 type 总 是 单个 字符 且 区 分 大 小 写 。value 则 是 一 个 
依赖 于 type 的 有 结构 的 文本 串 。 等 号 两 边 不 允许 有 空格 。 

v=0 是 版 本 。 

o= 是 来 源 。- 表 示 无 确切 用 户 名 ，60345 是 会 话 ID，0 是 这 个 声明 的 版 本 号 ，IN 是 网 络 类 型 ， 
IP4 是 地 址 类 型 ，128.223.214.198 是 地 址 。 由 用 户 名 、 会 话 ID、 网 络 类 型 、 地 址 类 型 和 地 址 
构成 的 五 元 组 是 本 会 话 的 一 个 全 球 唯一 的 标识 。 

s= 定 义 会 话 名 字 ，i= 给 出 关于 会 话 的 信息 。 我 们 对 后 者 按 每 80 个 字 节 一 次 作 了 折 行 处 理 。 
u= 给 出 一 个 统一 资源 标识 (Uniform Resource Identifier，URI)， 其 上 提供 关于 本 会 话 的 更 详细 
信息 ，e= 和 p= 则 分 别提 供 会 议 负 责 人 的 电子 邮件 地 址 和 电话 号 码 。 

b= 提供 本 会 话 预 期 带宽 的 一 个 测算 量 。t= 提 供 均 以 NTP 单 位 给 出 的 起 始 时 间 和 停止 时 间 ， 
即 从 1900 年 1 月 1 日 UTC 时 间 以 来 的 秒 数 。 本 会 话 是 永久 的 ， 因 为 起 止 时 间 都 是 0。 

a= 是 属性 行 ， 若 出 现在 任何 m= 行 之 前 则 为 会 话 属 性 ， 若 出 现在 某 个 m= 行 之 后 则 为 相应 媒体 
的 属性 。 

m= 是 媒体 声明 ， 共 有 2 行 。 其 中 第 一 行 指明 视频 在 端口 63096 上 ， 格 式 为 实时 传输 协议 
(Real-time Transport Protocol，RTP)， 使 用 音频 /视频 轮廓 (Audio/Video Profile)， 可 能 净 荷 类 型 
为 32、31 和 96 (分 别 表 示 MPEG、H.261 和 WBIH)。 紧 接 的 c= 行 提供 本 媒体 连接 信息 ， 在 本 例子 
中 指明 该 连接 基于 IP， 使 用 IPv4， 多 播 地 址 为 224.2.245.25，TTL 为 127。 虽 然 这 些 是 由 斜 杠 分 开 
的 ， 就 如 同 CIDR 前 缀 那样 ， 但 这 并 不 是 用 来 表示 前 级 或 掩 码 的 。 

下 一 个 m= 行 指 明 音频 在 31954 端 口 ,可 能 的 RTP/AVP 净 荷 类 型 有 若干 个 ,其 中 一 些 是 标准 的 ， 
一 些 由 随后 的 a=rtpmap: 进 一 步 说 明 。 紧 接 的 c= 行 提 供 本 媒体 的 连接 信息 ， 在 本 例子 中 指明 该 
连接 基于 IP， 使 用 IPv4， 多 播 地 址 为 224.2.216.85，TTL 为 127。 


2140 “发送 和 接收 


上 一 节 中 的 了 多 播 基 础 设施 会 话 声明 程序 只 接收 多 播 数据 报 。 我 们 在 本 节 开 发 一 个 既 发 送 
又 接收 多 播 数据 报 的 简单 程序 。 该 程序 包含 两 部 分 。 第 一 部 分 每 5 秒 钟 发 送 一 个 目的 地 为 指定 组 
的 多 播 数据 报 ， 其 中 含有 发 送 进程 的 主机 名 和 进程 ID。 第 二 部 分 是 一 个 无 限 循 环 ， 先 加 入 由 第 
一 部 分 发 往 的 多 播 组 ， 再 显示 接收 到 的 每 个 数据 报 (其 中 含有 发 送 进程 的 主机 名 和 进程 ID )。 这 
样 安排 使 得 我 们 可 以 在 一 个 局 域 网 内 的 多 个 主机 上 启动 该 程序 ， 以 便 查 看 哪个 主机 在 接收 来 自 
哪些 发 送 进程 的 数据 报 。 

图 21-17 给 出 了 该 程序 的 main 函 数 。 

我 们 创建 两 个 套 接 字 ， 一 个 用 于 发 送 ， 一 个 用 于 接收 。 我 们 想 要 给 接收 套 接 字 搬 绑 多 播 组 
和 端口 ， 辟 如 说 239.255.1.2 端 口 8888。( 回 顾 一 下 ， 我 们 可 以 只 捆绑 通 配 lP 地 址 和 端口 8888， 不 
过 还 是 捆绑 多 播 地 址 以 防止 目的 端口 同 为 8888 的 其 他 数据 报到 达 本 套 接 字 。) 接 着 想 要 接收 套 接 
字 加 入 多 播 组 。 发 送 套 接 字 将 发 送 数 据 报到 同一 个 多 播 地 址 和 端口 ， 也 就 是 239.255.1.2 端 口 
8888。 但 是 如 果 我 们 试图 用 单个 套 接 字 进行 发 送 和 接收 ， 那 么 所 收发 数据 报 的 源 协议 地 址 将 是 
出 自 bina 调 用 的 239.255.1.2:8888〔 使 用 netstat 记 法 )， 目 的 协议 地 址 (调用 sendto 时 指定 》 
也 将 是 239.255.1.2:8888。 这 么 一 来 ， 捆 绑 在 该 套 接 字 上 的 源 协议 地 址 成 了 UDP 数据 报 的 源 卫 地 
址 ， 而 RFC 1122 [Braden 1989] 禁止 出 现 源 下 地 址 是 多 播 地 址 或 广播 地 址 的 PP 数据 报 〈 见 习题 
21.2)。 因 此 ， 我 们 必须 创建 两 个 套 接 字 : 一 个 用 于 发 送 ， 一 个 用 于 接收 。 
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mcast/main.c 
1 #include “unp.h" 
2 void recv_all(int, socklen_t); 
3 void send_all(int, SA *, socklen_t); 


4 int 
5 main(int arge, char **argv) 
6 { 
7 int sendfd, recvfd; 
8 const int on = 1; 
9 socklen_t salen; 
10 struct sockaddr *sasend, *sarecv; 
11 if (argc !- 3) 
12 err quit("usage: sendrecv «IP-multicast-address» <port#>") ; 
13 sendfd = Udp client(argv([1], argv[2], (void **) &sasend, &salen); 
14 recvfd - Socket(sasend-»sa family, SOCK DGRAM, 0); 
15 Setsockopt(recvfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
16 sarecv - Malloc(salen); 
17 memcpy (sarecv, sasend, salen); 
18 Bind(recvfd, sarecv, salen); 
19 Mcast join(recvfd, sasend, salen, NULL, 0); 
20 Mcast set loop(sendfd, 0); 
21 if (Fork() == 0) 
22 recv all(recvfd, salen); /* child -» receives */ 
23 send all(sendfd, sasend, salen); /* parent -» sends */ 
24 } 
T — ——————————————— mcast/main.c 
图 21-17 创建 套 接 字 ，fork， 再 启动 发 送 进程 与 接收 进程 
创建 发 送 套 接 字 


13 ”我 们 的 uGp_client 函 数 创建 发 送 套 接 字 ， 并 处 理 指定 多 播 地 址 和 端口 号 的 那 两 个 命令 行 参 

数 。 该 函数 还 返回 可 用 于 调用 sendto 的 一 个 套 接 字 地 址 结构 及 其 长 度 。 

创建 接收 套 接 字 并 捆绑 多 播 地 址 和 端口 

14-18 ”创建 接收 套 接 字 ， 所 用 地 址 族 与 创建 发 送 套 接 字 所 用 的 一 样 。 设 置 sSo_REUSEADDR 套 接 
字 选 项 以 允许 这 个 程序 的 多 个 实例 同时 在 单一 主机 上 运行 。 我 们 接着 给 这 个 套 接 字 分 
配 一 个 套 接 字 地 址 结构 的 空间 ， 并 从 发 送 套 接 字 地 址 结构 复制 其 内 容 (发 送 套 接 字 的 
地 址 和 端口 取 自 命令 行 参 数 )， 再 把 其 中 的 多 播 地 址 和 端口 bina 在 接收 套 接 字 上 。 

加 入 多 播 组 并 禁止 回馈 

19-20 ”调用 我 们 的 mcast_join 函 数 在 接收 套 接 字 上 加 入 多 播 组 ， 再 调用 我 们 的 mcast_set_ 
loop 函 数 禁 止 发 送 套 接 字 上 的 回馈 特性 。 加 入 多 播 组 时 指定 接口 名 字 为 空 指针 ， 接 口 
索引 为 0， 从 而 告知 内 核 去 选择 接口 。 

fork 并 调用 相应 函数 

21-23 ”fork 后 子 进 程 就 是 接收 循环 ， 父 进程 就 是 发 送 循环 。 

图 21-18 给 出 了 我 们 的 sena_al1 函 数 ， 它 每 5 秒 钟 发 送 一 个 多 播 数 据 报 。main 函 数 把 套 接 字 
描述 符 、 指 向 包含 多 播 目的 地 址 和 目的 端口 的 套 接 字 地 址 结构 的 指针 以 及 该 结构 的 长 度 作为 参 
数 传递 给 senG_al1。 
获取 主机 名 并 形成 数据 报 内 容 

9-11 从 uname 函 数 获 得 主机 名 并 构造 一 个 包含 主机 名 和 进程 ID 的 输出 行 。 


an 
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发 送 数据 报 ， 接 着 去 睡眠 
12-15 发送 一 个 数据 报 后 调用 sleep 睡 眠 5$ 秒 钟 。 


mcast/send.c 
i #include "unp.h" 
2 #include «sys/utsname.h» 
3 #define SENDRATE 5 /* send one datagram every five seconds */ 
4 void 
5 send all(int sendfd, SA *sadest, socklen_t salen) 
6 í 
7 char line [MAXLINE] ; /* hostname and process ID */ 
8 struct utsname myname; . 
9 if (uname(&myname) < 0) 
10 err_sys ("uname error") ;; 
11 snprintf (line, sizeof(line), "s, %d\n", myname.nodename, getpid()); 
12 for (; ; ) í 
13 Sendto(sendfd, line, strlen(line), 0, sadest, salen); 
14 Sleep (SENDRATE) ; 
15 ) 
16 ) 
— mcast/send.c 
图 21-18 ”每 5 秒 钟 发 送 一 个 多 播 数据 报 
图 21-19 给 出 了 我 们 的 recv_al1 函 数 ， 它 是 一 个 无 限 的 接收 循环 。 
ast/recv.c 





1 #include "unp.h" 


2 void 
3 recv_all{int recvfd, socklen t salen) 


4t 
5 int n; 

6 char line [MAXLINE+1] ; 
7 socklen_t len; 

8 struct sockaddr *safrom; 


9 safrom = Malloc(salen); 

10 fot (2) 

11 len = salen; 

12 n = Recvfrom(recvfd, line, MAXLINE, 0, safrom, &len); 
13 line[n] = 0; /* null terminate */ 

14 printf("from $s: $s", Sock ntop(safrom, len), line); 
15 } 

16 } 


——— — — — ——»mcast/recv.c 


图 21-19 ”接收 到 达 所 加 入 组 的 所 有 多 播 数据 报 








分 配套 接 字 地 址 结构 
9 ”分 配 一 个 套 接 字 地 址 结构 以 存放 每 次 调用 recvfrom 返 回 的 发 送 进程 的 协议 地 址 。 
读 入 并 输出 数据 报 
10-315 每 一 个 数据 报 由 recvfrom 读 入 ， 以 空 字 符 结 尾 后 显示 输出 。 
运行 示例 
我 们 在 freebsd4 和 macosx 这 2 个 系统 上 运行 本 程序 ， 看 到 每 个 系统 都 接收 了 由 另 一 个 系统 发 
送 的 分 组 。 
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freebsd4 % sendrecv 239.255.1.2 8888 

from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 
from 172.24.37.78:51297: macosx, 21891 


macosx $ sendrecv 239.255.1.2 8888 

from 172.24.37.94:1215: freebsd4, 55372 
from 172.24.37.94:1215: freebsd4, 55372 
from 172.24.37.94:1215: freebsd4, 55372 
from 172.24.37.94:1215: freebsd4, 55372 
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21.11 SNTP. 简单 网 络 时 间 协 议 


网 络 时 间 协 议 NTP 是 一 个 用 于 跨 广 域 网 或 局 域 网 同步 时 钟 的 复杂 协议 ， 往 往 能 够 达到 毫秒 
级 的 精度 。RFC 1305 [Mills 1992] 详细 叙述 了 这 个 协议 ，RFC 2030 [Mills 1996] 则 叙述 了 NTP 
的 一 个 简化 版 本 SNTP， 用 于 那些 不 需要 完整 的 NTP 实 现 之 复杂 性 的 主机 。 通 常 的 做 法 是 : 让 局 
域 网 内 的 少数 几 个 主机 跨 因 特 网 与 其 他 NTP 主 机 同步 时 钟 ， 然 后 由 这 些 主机 在 局 域 网 内 使 用 广 
播 或 多 播 重新 发 布 时 间 。 

我 们 在 本 节 开 发 一 个 SNTP 客 户 程序 , 它 在 与 本 地 主机 直接 连接 的 所 有 网 络 上 听取 NTP 广 播 
或 多 播 分 组 ， 接 着 输出 各 个 NTP 分 组 与 本 地 主机 当前 时 间 之 差 。 我 们 并 不 试图 修正 当前 时 间 ， 
因为 那么 做 需要 超级 用 户 权限 。 

如 图 21-20 所 示 的 ntp.h 文 件 包 含 关于 NTP 分 组 格式 的 一 些 基本 定义 。 








ssntp/ntp.h 
1 #define JAN 1970 2208988800UL /* 1970 - 1900 in seconds */ 
2 struct 1 fixedpt { /* 64-bit fixed-point */ 
3 uint32 t int part; 
4 uint32 t fraction; 
5 
6 struct s fixedpt ( /* 32-bit fixed-point */ 
7 uinti6 t int, part; 
8 uintl6 t fraction; 
9); 
10 struct ntpdata { /* NTP header */ 
11 u char Status; 
12 u_char stratum; 
13 u_char ppoll; 
14 int precision:8; 
15 struct s_fixedpt distance; 
16 struct s_fixedpt dispersion; 
17 uint32_t refid; 
18 struct l fixedpt reftime; 
19 struct 1_fixedpt org; 
20 struct l fixedpt rec; 
21 struct l fixedpt  »xmt; 
22 }; 
23 define VERSION MASK 0x38 
24 #define MODE MASK 0x07 
25 #define MODE CLIENT 3 
26 #define MODE SERVER 4 
27 #define MODE BROADCAST 5 
ssntp/ntp.h 





图 21-20 ntp.h 头 文件 ，NTP 分 组 格式 与 定义 
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2-22 1_fixedpt 定 义 NTP 用 于 时 间 稚 的 64 位 定点 值 ，s_fixedapt 定 义 NTP 所 用 的 32 位 定点 
值 。ntpdata 结 构 是 48 字 节 的 NTP 数 据 报 格式 。 
图 21-21 给 出 了 main 函 数 。 








- -^ssntp/main.c 

1 #include "sntp.h" 

2 int 

3 main(int argc, char **argv) 

4 { 

5 int sockfd; 

6 char buf [MAXLINE] ; 

7 ssize_t n; 

8 socklen_t salen, len; 

9 struct ifi_info *ifi; 

10 struct sockaddr *mcastsa, *wild, *from; 
11 struct timeval now; 

12 if (argc != 2) 

13 err quit("usage: ssntp «IPaddress»"); 
14 sockfd = Udp client(argv[1], "ntp", (void **) &mcastsa, &salen); 
15 wild - Malloc(salen); 

16 memcpy (wild, mcastsa, salen); /* copy family and port */ 

17 Sock set wild(wild, salen); 

18 Bind(sockfd, wild, salen); /* bind wildcard */ 
19 #ifdef MCAST 
20 /* obtain interface list and process each one */ 
21 for (ifi - Get ifi info(mcastsa-»sa family, 1); ifi !- NULL; 
22 ifi - ifi-»ifi next) ( 
23 if (ifi-»ifi flags & IFF MULTICAST) ( 
24 Mcast join(sockfd, mcastsa, salen, ifi-»ifi name, 0); 
25 printf ("joined $s on %s\n", 
26 Sock ntop(mcastsa, salen), ifi->ifi_name); 
27 ) 
28 } 
29 #endif 
30 from = Malloc(salen); 
31 for (: 3) { 
32 len = salen; 
33 n = Recvfrom(sockfd, buf, sizeof(buf), 0, from, &len); 
34 Gettimeofday (&now, NULL); 
35 sntp_proc(buf, n, &now); 

36 } 

37 ) 

sntp/main.c 











图 21-21 main 函数 


获得 多 播 IP 地 址 

12-14 ”用 户 执行 本 程序 时 必须 作为 命令 行 参数 指定 要 加 入 的 多 播 地 址 。 对 于 IPv4， 这 将 是 
224.0.1.1 或 域名 ntp.mcast .net。 对 于 IPv6, 这 将 是 网 点 局 部 范围 内 NTP 的 ff05 ::101. 
我 们 的 udp_client 函 数 为 一 个 正确 类 型 (IPv4 或 IPv6〉 的 套 接 字 地 址 结构 分 配 空间 ， 
并 在 该 结构 中 存放 多 播 地 址 和 端口 。 如 果 是 在 不 支持 多 播 的 主机 上 运行 本 程序 ， 那 么 
可 以 随意 指定 一 个 IP 地 址 ， 因 为 本 程序 仅仅 使 用 取 自 该 结构 的 地 址 族 和 端口 号 信息 。 
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注意 udp_client 并 不 把 地 址 捆绑 到 套 接 字 上 , 它 只 是 创建 套 接 字 并 填写 套 接 字 地 址 结 
构 。 
把 通 配 地 址 捆绑 到 套 接 字 
15~18 ”为 另 一 个 套 接 字 地 址 结构 分 配 空间 ， 并 把 由 udp_dient 填 写 的 结构 复制 填写 到 其 中 ， 
从 而 设置 该 结构 的 地 址 族 和 端口 字段 。 接 着 调用 我 们 的 sock_set_wild 函 数 设置 该 结 
构 的 了 地 址 字段 为 通 配 地 址 ， 然 后 调用 bina。 
获得 接口 列表 
20-22 ”我 们 的 get_ifi_info 函 数 返 回 所 有 接口 和 地 址 的 信息 。 我 们 查询 的 地 址 族 取 自 以 uap_ 
client 基 于 命令 行 参数 填写 的 套 接 字 地 址 结构 。 
加 入 多 播 组 
23-27 ”调用 我 们 的 mcast_join 函 数 在 每 个 具备 多 播 能 力 的 接口 上 加 入 由 命令 行 参数 指定 的 
多 播 组 。 所 有 这 些 加 入 操作 都 通过 本 程序 使 用 的 单个 套 接 字 执 行 。 我 们 以 前 提 到 过 ， 
通常 每 个 套 接 字 都 有 一 个 ITP_MAX_MEMBERSHIPS〔 其 值 一 般 为 20) 次 加 入 操作 的 限制 ， 
不 过 拥有 那么 多 接口 的 多 宿主 机 相当 少见 。 
读 入 并 处 理 所 有 NTP 分 组 
30-36 ”再 分 配 一 个 套 接 字 地 址 结构 的 空间 以 存放 由 recvfrom 返 回 的 地 址 。 程 序 接着 进入 一 个 
无 限 循环 ， 先 读 入 本 主机 收 到 的 所 有 NTP 分 组 ， 再 调用 我 们 的 sntp_proc 函 数 〈 稍 后 讲 
解 ) 处 理 每 个 分 组 。 既 然 本 套 接 字 上 绑 定 的 是 通 配 地 址 ， 而 且 已 经 在 所 有 具备 多 播 能 
力 的 接口 上 加 入 了 给 定 多 播 组 ， 因 此 本 套 接 字 应 该 接收 本 主机 收 到 的 任何 单 播 、 广 播 
或 多 播 NTP 分 组 。 在 调用 sntp_proc 前 我 们 调用 gettimeofGay 取 得 当前 时 间 ， 因 为 
sntp_proc 需 计算 包含 在 NTP 分 组 中 的 时 间 和 当前 时 间 之 差 。 
图 21-22 给 出 的 sntp_proc 函 数 处 理 真 正 的 NTP 分 组 。 
验证 分 组 的 有 效 性 
10-21 首先 检查 分 组 的 大 小 ， 接 着 输出 版 本 、 模 式 和 服务 器 层次 (server stratum)。 如 果 模 式 
为 MODE_CLIENT， 那 么 本 分 组 是 一 个 客户 请 求 而 不 是 一 个 服务 器 应 答 ， 于 是 我 们 忽略 
Be 
从 NTP 分 组 获取 发 送 时 间 
22-33 ”NTP 分 组 中 我 们 感 兴 趣 的 字段 是 表示 发 送 时 间 戳 的 xmt， 它 是 服务 器 发 送 本 分 组 时 刻 
的 64 位 定点 时 间 。 由 于 NTP 时 间 惟 从 1900 年 开始 计 秒 数 ， 而 Unix 时 间 惟 从 1970 年 开始 
计 秒 数 ， 我 们 于 是 首先 从 xmt 的 整数 部 分 中 减 去 JAN_1970 (1900 到 1970 共 70 年 的 秒 
数 )。 
xmt 的 小 数 部 分 是 一 个 32 位 无 符号 整数 ， 其 值 介 于 0 到 4294967295 之 间 “〈 含 边界 值 )。 我 们 
把 它 从 32 位 整数 (useci) 复制 到 一 个 双 精 度 浮 点 变量 (usecf)， 再 除 以 4294967296 (232)。 结 
果 为 大 于 等 于 0.0， 小 于 1.0。 我 们 对 它 乘 以 1000000“〈1 秒 钟 的 微 秒 数 )， 并 把 结果 作为 一 个 32 位 
无 符号 整数 存放 在 变量 useci 中 。 这 是 介 于 0 一 999999 的 微 秒 数 (见习 题 21.5)。 我 们 转换 成 微 秒 
数 是 因为 由 gettimeofday 返 回 的 Unix 时 间 蕉 包含 两 个 整数 : 从 1970 年 1 月 1 日 UTC 时 间 以 来 的 秒 
数 以 及 微 秒 数 。 我 们 然后 计算 并 显示 主机 的 当前 时 间 与 NTP 服 务 器 当前 时 间 之 间 以 微 秒 为 单位 
的 时 间 差 。 
本 程序 没有 考虑 服务 器 和 客户 之 间 的 网 络 延 迟 。 然 而 我 们 假设 在 局 域 网 内 NTP 分 组 通常 作 
为 广播 或 多 播 数据 报 接收 ， 这 种 情况 下 网 络 延 迟 应 该 只 有 几 毫 秒 。 
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一 一 ”二 ”一 


a ssintp/snitp_proc.e 


1 #include "sntp.h" 


2 void 

3 sntp proc(char *buf, ssize t n, struct timeval *nowptr) 

At 

5 int version, mode; 

6 uint32 t nsec, useci; 

7 double usecf; 

8 struct timeval diff; 

9 struct ntpdata *ntp; 

10 if (n « (ssize t)sizeof(struct ntpdata)) ( 

11 printf ("\npacket too small: $d bytes\n", n); 

12 return; 

13 ) 

14 ntp - (struct ntpdata *) buf; 

15 version - (ntp-»status & VERSION MASK) »» 3; 

16 mode - ntp-»status & MODE MASK; 

17 printf("\nv%d, mode $d, strat %d, ", version, mode, ntp-»stratum); 
18 if (mode == MODE CLIENT) { 

19 printf("clientWMn*); 
20 return; 
21 } 
22 nsec = ntohl(ntp-»xmt.int part) - JAN 1970; 
23 useci = ntohl(ntp-»xmt.fraction); /* 32-bit integer fraction */ 
24 usecf - useci; /* integer fraction -» double */ 
25 usecf /= 4294967296.0; /* divide by 2**32 -> [0, 1.0) */ 
26 useci - usecf * 1000000.0; /* fraction -» parts per million */ 
27 diff.tv sec = nowptr-»tv sec - nsec; 
28 if ( (diff.tv usec = nowptr-»tv usec - useci) < 0) { 

29 diff.tv usec «- 1000000; 

30 diff.tv sec--; 

31 } 

32 useci = (diff.tv sec * 1000000) + diff.tv usec; /* diff in microsec */ 
33 printf ("clock difference = %d usec\n", useci); 

34 } 


SS /Sntp_proc.c 





图 21-22 ”sntp_proc 函 数 : 处 理 SNTP 分 组 


我 们 在 主机 macosx 上 运行 本 程序 , 而 运行 在 主机 freebsG4 上 的 NTP 服 务 器 每 隔 64 秒 钟 多 播 
NTP 分 组 一 次 到 所 在 的 以 太 网 ， 于 是 得 到 如 下 输出 : 


macosx # ssntp 224.0.1.1 
joined 224.0.1.1.123 on 100 
joined 224.0.1.1.123 on enl 


v4, 
v4, 
v4, 
v4, 
v4, 
v4, 


v4, 


mode 5, start 3, clock difference = 661 usec 

mode 5, start 3, clock difference -1789 usec 
mode 5, start 3, clock difference = -2945 usec 
mode 5, start 3, clock difference -3689 usec 
mode 5, start 3, clock difference -5425 usec 
mode 5, start 3, clock difference -6700 usec 
mode 5, start 3, clock difference -8520 usec 


习题 461 





我 们 先 终 止 运行 在 本 主机 上 的 正常 的 NTP 服 务 器 再 运行 本 程序 ， 这 样 当 本 程序 启动 时 本 主 
机 的 时 间 非 常 接近 于 NTP 服 务 器 主机 的 时 间 。 我 们 看 到 本 主机 在 384 秒 钟 内 赢 余 9181 微 秒 ， 即 每 
24 小 时 约 差 2 秒 。 
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多 播 应 用 进程 一 开始 就 通过 设置 套 接 字 选 项 请 求 加 入 赋予 它 的 多 播 组 。 该 请 求 告 知人 P 层 加 
入 给 定 组 ，IP 层 再 告知 数据 链 路 层 接收 发 往 相应 硬件 层 多 播 地 址 的 多 播 帧 。 多 播 利用 多 数 接口 
卡 都 提供 的 硬件 过 滤 减 少 非 期 望 分 组 的 接收 ， 而 且 过 滤 质 量 越 好 非 期 望 分 组 接收 量 也 越 少 。 这 
种 硬件 过 滤 的 运用 还 降低 了 不 参与 多 播 应 用 系统 的 其 他 主机 上 的 负荷 。 

广域网 上 的 多 播 需要 具备 多 播 能 力 的 路 由 器 和 多 播 路 由 协议 。 在 因特网 上 所 有 路 由 器 都 其 
备 多 播 能 力 之 前 ， 多 播 仅 仅 在 因特网 的 某 些 “孤岛 ”上 可 用 。 这 些 孤 岛 联 接 起 来 构成 所 谓 的 卫 
多 播 基础 设施 。 

9 个 套 接 字 选项 提供 了 支持 多 播 的 API; 

e 在 一 个 接口 上 加 入 一 个 不 限 源 的 多 播 组 ; 

。 离开 一 个 不 限 源 的 多 播 组 ， 

e 阻塞 接收 从 一 个 源 到 一 个 已 加 入 多 播 组 的 数据 报 ; 

e. 开通 一 个 被 阻塞 的 源 ; 

e 在 一 个 接口 上 加 入 一 个 特定 于 源 的 多 播 组 ; 

。 离开 一 个 特定 于 源 的 多 播 组 ; 

e. 设置 外 出 多 播 数据 报 的 默认 接口 ; 

e 设置 外 出 多 播 数据 报 的 TTL 或 跳 限 ; 

e 开启 或 禁止 多 播 数据 报 的 回馈 。 

前 6 个 用 于 接收 ， 后 3 个 用 于 发 送 。 这些 套 接 字 选项 的 IPv4 和 IPv6 版 本 之 间 存 在 过 多 的 差异 ， 
使 得 使 用 多 播 的 协议 无 关 代 码 因 插入 大 量 的 #ifdef 伪 代码 而 迅速 变 得 凌乱 不 堪 。 我 们 开发 了 12 
个 均 以 mcast_ 打 头 的 函数 ， 可 以 有 助 于 编写 对 于 IPv4 和 IPv6 都 适用 的 多 播 应 用 程序 。 
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21.1 构造 图 20-9 中 的 程序 ， 在 命令 行 上 指定 IP 地 址 224.0.0.1 执 行 它 ， 会 发 生 什 么 ? 

21.2 接着 上 个 习题 ， 把 图 20-9 中 的 程序 改 为 捆绑 人 PP 地 址 224.0.0.1 和 端口 0 到 它 的 套 接 字 ， 然 后 执行 它 。 你 
的 系统 允许 捆绑 多 播 地 址 到 套 接 字 吗 ?如 果 你 有 诸如 tcpdump 等 工具 可 用 ， 那 就 用 它们 观察 网 络 上 
的 分 组 。 你 发 送 的 数据 报 的 源 下 地 址 是 什么 ? 

213 ”获悉 子 网 上 哪些 主机 具备 多 播 能 力 的 一 个 方法 是 ping 所 有 主机 组 224.0.0.1， 试 一 下 。 

21.4 判定 你 的 主机 是 否 连 接 到 IP 多 播 基 础 设施 的 一 个 方法 是 执行 21.9 节 中 的 程序 ， 等 待 数 分 钟 ， 看 是 否 
有 任何 会 话 声明 出 现 。 试 一 下 看 你 是 否 收 到 任何 声明 。 

21.5 当 NTP 时 间 玲 的 小 数 部 分 是 1073741824〈 即 14X232) 时 ， 过 一 遍 图 21-22 中 的 计算 过 程 。 对 最 大 可 
能 的 整数 小 数 部 分 (27-1) 重新 计算 一 遍 。 

21.6 修改 mcast_set_if 的 实现 中 对 于 IPv4 版 本 的 操作 ， 让 程序 记 住 已 经 获取 其 IP 地 址 的 每 个 接口 的 名 
字 ， 以 免 为 这 些 接口 再 次 调用 ioct1。 
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本 章 汇 集 了 影响 应 用 程序 使 用 UDP 套 接 字 的 多 个 论题 。 首 先是 确定 某 个 外 来 UDP 数据 报 的 
目的 地 址 及 其 接收 接口 〈 也 就 是 到 达 接 口 )， 因 为 绑 定 某 个 UDP 端口 和 通 配 地 址 的 一 个 套 接 字 能 
够 在 任何 接口 上 接收 单 播 、 广 播 和 多 播 数据 报 。 

TCP 是 一 个 字 节 流 协 议 ， 又 使 用 滑动 窗口 ， 因 此 没有 诸如 记录 边界 或 发 送 者 数据 发 送 能 力 
超过 接收 者 数据 接收 能 力 之 类 的 事情 。 然 而 对 于 UDP 而 言 ， 每 个 输入 操作 对 应 一 个 UDP 数据 报 
(一 个 记录 )， 因 此 当 收 取 的 数据 报 大 于 应 用 进程 的 输入 缓冲 区 时 就 有 如 何 处 理 的 问题 。 

UDP 是 不 可 靠 的 协议 ， 不 过 有 些 应 用 程序 确实 有 理由 使 用 UDP 而 不 使 用 TCP。 我 们 将 讨论 
影响 何 时 用 UDP 代替 TCP 的 若干 因素 。 在 这 些 UDP 应 用 程序 中 ， 我 们 必须 包含 一 些 特 性 以 弥补 
UDP 的 不 可 靠 性 : 超时 和 重 传 〈 用 于 处 理 丢失 的 数据 报 )、 序 列 号 〈 用 于 匹配 应 答 与 请 求 )。 我 
们 将 开发 一 组 可 在 UDP 应 用 程序 中 调用 的 函数 以 处 理 这 些 细节 。 

如 果实 现 不 支持 ITP_REcVDSTADDR 套 接 字 选 项 , 那么 确定 外 来 UDP 数据 报 目的 下地 址 的 方法 
之 一 是 捆绑 所 有 的 接口 地 址 并 使 用 select。 

多 数 UDP 服 务 器 程序 是 迭代 运行 的 ， 不 过 有 些 应 用 系统 在 客户 和 服务 器 之 间 交 换 多 个 UDP 
数据 报 ， 因 而 需要 某 种 形式 的 并 发 。TFTP 是 一 个 常见 的 例子 ， 我 们 将 讨论 有 ineta 参 与 和 无 
inetdq 参 与 这 两 种 情况 下 如 何 做 到 这 些 。 

最 后 的 论题 是 可 作为 每 个 IPv6 数 据 报 的 辅助 数据 指定 的 特定 于 分 组 的 信息 : 源 耻 地 址 、 发 
送 接口 、 外 出 跳 限 和 下 一 跳 地 址 。 可 随 每 个 IPv6 数 据 报 返 回 的 类 似 信息 还 有 : 目的 地址、 接 
收 接口 和 接收 跳 限 。 
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历史 上 sendmsg 和 recvmsg 一 直 只 用 于 通过 Unix 域 套 接 字 传递 描述 符 〈15.7 节 )， 而 且 甚 至 
这 种 用 途 也 不 多 见 。 然 而 由 于 以 下 两 个 原因 ， 这 两 个 函数 的 使 用 情况 正在 不 断 改观 。 

(1) 随 4.3BSD Reno 加 到 msghar 结 构 的 msg_flags 成 员 返 回 标志 给 应 用 进程 。 我 们 已 在 图 
14-7 中 汇总 了 这 些 标志 

(2) 辅助 数据 正 被 用 于 在 应 用 进程 和 内 核 之 间 传 递 越 来 越 多 的 信息 。 我 们 将 在 第 27 章 看 到 
IPv6 延 续 了 这 种 趋势 。 

作为 recvmsg 的 一 个 例子 , 我 们 将 编写 一 个 名 为 recvfrom_flags 的 函数 , 它 类 似 recvfrom 
不 过 还 返回 : 

e 所 返回 的 msg_flags 值 ; 

e 所 收取 数据 报 的 目的 地 址 (通过 IP EcVDSTADDR 帮 楼 字 志 项 获取 
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e 所 收取 数据 报 接收 接口 的 索引 (通过 IP_RECVIF 套 接 字 选项 获取 )。 
为 了 返回 最 后 两 项 ， 我 们 在 unp.h 头 文件 中 定义 如 下 结构 。 


Struct unp in pktinfo ( 
struct in_addr ipi addr; /* destination IPv4 address */ 
int ipi ifindex;  /* received interface index */ 
}; 
我 们 特意 选取 该 结构 及 其 成 员 的 名 字 ， 使 得 它们 类 似 于 IPv6 情 形 为 IPv6 套 接 字 返 回 同样 两 
项 的 in6_pktinfo 结 构 (22.8 节 )。 我 们 的 recvfrom_flags 函 数 将 取 指 向 某 个 in_pkktinfo 结 构 
的 一 个 指针 作为 参数 ， 如 果 该 指针 不 为 定 ， 本 函数 就 通过 该 指针 所 指 结构 返回 信息 。 
有 关 这 个 结构 的 一 个 设计 问题 是 ， 如 果 IP_RECVDSTADDR 信 息 不 可 得 (也 就 是 说 实现 不 支持 
这 个 套 接 字 选项 )， 那 么 返回 什么 。 接 口 索引 容易 处 理 ， 因 为 值 0 可 以 指示 索引 不 可 知 。 然 而 了 地 
址 的 所 有 32 位 值 都 是 有 效 的 。 我 们 选择 这 么 做 : 当 实 际 值 不 可 得 时 返回 一 个 全 0 值 〈0.0.0.0) 作为 
目的 地 址 。 尽 管 它 是 一 个 有 效 亿 地 址 ， 却 从 不 允许 作为 目的 人 P 地 址 (RFC 1122 [Braden 1989]); 
它 只 有 作为 源 下 地 址 才 有 效 ， 而 且 必 须 是 在 主机 正在 引导 ， 从 而 还 不 知道 自己 的 下 地 址 的 时 候 。 
不 幸 的 是 , 源 自 Berkeley 的 内 核 接受 目的 地 址 为 0.0.0.0 的 IP 数 据 报 (TCPv2 第 218~219 页 ) 。 
这 些 数据 报 是 由 源 自 4.2BSD 的 内 核 产生 的 作废 了 的 广播 数据 报 。 


我 们 在 图 22-1 中 给 出 recvfrom_flags 函 数 的 前 半 部 分 。 该 函数 意 在 用 于 UDP 套 接 字 。 


advio/recvfromflags.c 
1 #include "unp.h* s 
2 #include «sys/param.h» /* ALIGN macro for CMSG NXTHDR() macro */ 
3 ssize t 
4 recvfrom flags(int fd, void *ptr, size t nbytes, int *flagsp, 
5 SA *sa, socklen t *salenptr, struct unp in pktinfo *pktp) 
6 { 
7 struct msghdr msg; 
8 struct iovec iov[1]; 
9 ssize t n; 
10 #ifdef HAVE MSGHDR MSG CONTROL 
LL struct cmsghdr  *cmptr; 
12 union ( 
13 Struct cms ghdr cm; 
14 char control[CMSG, SPACE(sizeof(struct in addr)) + 
15 CMSG SPACE(sizeof(struct unp in pktinfo))]; 
16 ) control un; 
17 msg.msg control - control un.control; 
18 msg.msg controllen - sizeof (control, un.control); 
19 msg.msg flags - 0; 
20 #else 
21 bzero(&msg, sizeof(msg)); /* make certain msg accrightslen = 0 */ 
22 fendif 
23 msg .msg_ name = sa; 
24 msg.msg namelen - *salenptr; 
25 iov[0].iov base - ptr; 
26 iov[0].iov len - nbytes; 
27 msg.msg iov - iov; 
28 msg.msg iovlen - 1; 
29 if ( (n » recvmsg(fd, &msg, *flagsp)) « 0) 
30 return (n); 
31 *salenptr - msg.msg namelen; /* pass back results */ 
32 if (pktp) 
33 bzero(pktp, sizeof(struct unp in pktinfo)); /* 0.0.0.0, i/f = 0 */ 
M — — — — —— advio/recvfromflags.c 


图 22-1 recvfrom_flagsM&: 调用 recvmsg 
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包含 文件 
1-2 ” 宏 cCMSG_NXTHDR 的 使 用 需要 包含 头 文件 <sys/param.h>。 
函数 参数 
3-5 本 函数 的 参数 类 似 *ecvfrom， 不 过 第 四 个 参数 现在 是 指向 某 个 整数 标志 的 一 个 指针 
(我 们 可 由 此 返回 由 recvmsg 返 回 的 标志 )， 第 七 个 参数 则 是 新 的 它 是 指向 某 个 
in_pktinfo 结 构 的 一 个 指针 ， 本 函数 由 此 返回 所 接收 数据 报 的 目的 IPv4 地 址 和 它 的 接 
收 接口 索引 。 
实现 差异 
10-22 在 处 理 msghar 结 构 和 各 种 MSG_xxx 常 值 时 ， 我 们 会 遇 到 许多 不 同 实现 的 差异 。 我们 处 理 
这 些 差异 的 手段 是 使 用 C 的 条 件 包含 特性 〈#ifaef)。 如 果 本 实现 支持 msg_control 成 
员 ， 那 就 分 配 空间 以 便 存 放 将 由 套 接 字 选 项 TP_RECVDSTADDR 和 IP_RECVIF 返 回 的 值 ， 
并 且 初 始 化 适当 的 成 员 。 
填写 msghar 结 构 并 调用 recvmsg 
23-33 ”填写 一 个 msghdr 结 构 并 调用 recvmsg。msg_namelen 和 msg_flags 这 两 个 成 员 的 值 必须 
传递 回调 用 者 ; 它们 是 值 -结果 参数 。 我 们 还 初始 化 调用 者 的 in_pktinfo 结 构 ， 置 IP 
地 址 为 0.0.0.0， 置 接口 索引 为 0。 
图 22-2 给 出 了 本 函数 的 后 半 部 分 。 





advio/recvfromflags.c 
34 #ifndef HAVE MSGHDR, MSG CONTROL 
35 *flagsp - 0; /* pass back results */ 
36 return ín); 
37 #else 
38 *flagsp - msg.msg flags; /* pass back results */ 
39 if (msg.msg controllen « sizeof(struct cmsghdr) || 
40 (msg.msg flags & MSG CTRUNC) || pktp == NULL) 
41 return (n); 
42 for (cmptr - CMSG FIRSTHDR(&msg); cmptr !- NULL; 
43 cmptr = CMSG NXTHDR(&msg, cmptr)) { 
44 #ifdef IP RECVDSTADDR 
45 if (cmptr-»cmsg level -- IPPROTO IP && 
46 cmptr-»cmsg type == IP RECVDSTADDR) { 
47 memcpy (&pktp->ipi_addr, CMSG DATA(cmptr), 
48 sizeof(struct in, addr)); 
49 continue; 
50 ) 
51 #endif 
52 #ifdef IP RECVIF 
53 if (cmptr-»cmsg level == IPPROTO IP && cmptr-»cmsg type == IP RECVIF)( 
54 struct sockaddr dl *sdl; 
55 sdl = (struct sockaddr dl *) CMSG, DATA(cmptr); 
56 pktp->ipi_ifindex = sdl-»sdl index; 
57 continue; 
58 ) 
59 #endif 
60 err_quit ("unknown ancillary data, len = %d, level = $d, type = %d", 
61 cmptr-»cmsg len, cmptr-»cmsg level, cmptr-»cmsg type); 
62 ) 
63 return(n); 
64 #endif /* HAVE MSGHDR MSG CONTROL */ 
65 ) 
一 - — ———— advio/recvfromflags.c 





图 22-2 recvfrom_flags 函 数 : 返回 标志 和 目的 地 址 
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34-37 ”如 果 本 实现 不 支持 msg_control 成 员 ， 那 就 把 待 返回 标志 设置 为 0 并 返回 。 本 函数 其 余 
部 分 处 理 msg_control 信 息 o 

如 果 没 有 控制 信息 则 返回 

38-41 返回 msg_flags 成 员 的 值 ， 然后 如 果 满 足以 下 条 件 之 一 就 将 其 返回 到 调用 者 : Ca) 没有 
控制 信息 ，(b) 控制 信息 被 截断 ，(c) 调用 者 不 想 返 回 一 个 in_pktinfo 结 构 。 

处 理 辅助 数据 

42-43 ”使 用 宏 cMsG_FIRSTHDR 和 CMSsG_NXTHDR 处 理 任意 数目 的 辅助 数据 对 象 。 

处 理 IP_RECVDSTADDR 

44~51 如果 目 的 耳 地 址 作为 控制 信息 返回 〈 图 14-9)， 那 就 把 它 返回 给 调用 者 。 

处 理 IP_RECVIF 

52-59 如 果 接 收 接口 的 索引 作为 控制 信息 返回 ， 那 就 把 它 返回 给 调用 者 。 图 22-3 展 示 了 由 
recvmsg 返 回 的 本 辅助 数据 对 象 的 内 容 。 


cmsghar{} 









20 
IPPROTO IP 





cmsg level 
cmeg type IP RECVIF 
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TFT NONE, 0, 0, 0 


图 22-3 ”IP_RECVIF 返 回 的 辅助 数据 对 象 


回顾 图 18-1 中 的 数据 链 路 套 接 字 地 址 结构 。 在 图 22-3 所 示 的 辅助 数据 对 象 中 返回 的 数据 正 
是 这 种 结构 之 一 ， 不 过 其 中 3 个 长 度 成 员 〔 名 字 长 度 、 地 址 长 度 和 选择 符 长 度 ) 都 是 0。 因 此 这 
些 长 度 成 员 不 必 后 跟 任 何 数据 ， 整 个 结构 的 长 度 应 该 是 8 字 节 ， 而 不 是 图 18-1 所 示 的 20 字 节 。 我 
们 返回 的 信息 是 接口 索引 。 


BIF: 输出 目的 IP 地 址 和 数据 报 截断 标志 


为 了 测试 recvfrom_flags 函 数 ， 我们 把 Gg_echo 函 数 ( 图 8-4) 改 为 调用 recvfrom_flags 
而 不 是 recvfrom。 图 22-4 给 出 了 这 个 新 版 本 的 dg_echo 函 数 。 
修改 MAXLINE 
2-3 ”去 掉 出 现在 unp.h 头 文件 中 已 有 的 MAXLINE 定 义 ， 把 它 重新 定义 为 20。 我 们 这 样 做 是 为 
了 查看 当 收 到 一 个 比 我 们 传递 给 输入 函数 (本 例 中 是 recvmsg) 的 缓冲 区 更 大 的 UDP 
数据 报时 会 发 生 什么 。 
设置 IP_RECVDSTADDR 和 IP_RECVIF 套 接 字 选 项 
14-21 如果 IP_RECVDSTADDR 套 接 字 选 项 有 定义 ， 那 就 开启 它 。 同 样 地 如 果 IP_RECVIF 套 接 字 
选项 有 定义 ， 那 就 开启 它 。 
读 入 数据 报 ， 输 出 源 IP 地 址 和 端口 号 
24-28 调用 recvfrom_flags 读 入 数据 报 。 调 用 sock_ntop 把 所 收取 服务 器 应 答 的 源 IP 地 址 和 
端口 号 转换 为 表达 格式 ， 再 显示 输出 。 
输出 目的 IP 地 址 
29-31 ”如 果 返 回 的 人 P 地 址 不 是 9， 那 就 调用 inet_ntop 把 它 转换 为 表达 格式 并 显示 。 






sockaddr dl() de 
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—— — — —— —advio/dgechoaddr.c 
1 #include “unpifi.h" 
2 #undef MAXLINE 
3 #@efine MAXLINE 20 /* to see datagram truncation */ 
4 void 
5 dg_echo(int sockfd, SA *pcliaddr, socklen_t clilen) 
6 ( 
7 int flags; 
8 const int on = 1; 
9 socklen_t len; 
10 ssize t n; 
11 char mesg[MAXLINE], str([INET6 ADDRSTRLEN], ifname{IFNAMSIZ]; 
12 struct in_addr in zero; 
13 struct unp in pktinfo pktinfo; 
14 #ifdef IP RECVDSTADDR 
15 if (setsockopt(sockfd, IPPROTO IP, IP RECVDSTADDR, &on, sizeof(on)) < 0) 
16 err ret("setsockopt of IP RECVDSTADDR"); 
17 kendif 
18 #ifdef IP RECVIF 
19 if (setsockopt(sockfd, IPPROTO IP, IP RECVIF, &on, sizeof(on)) « 0) 
20 err ret("setsockopt of IP RECVIF"); 
21 #endif 
22 bzero(&in zero, sizeof(struct in addr)); /* all 0 IPv4 address */ 
23 for (r7) 
24 len = clilen; 
25 flags - 0; 
26 n = Recvfrom flags(sockfd, mesg, MAXLINE, &flags, 
27 pcliaddr, &len, &pktinfo); 
28 printf("%d-byte datagram from $s", n, Sock ntop(pciiaddr, len)); 
29 if (memcmp(&pktinfo.ipi_addr, &in zero, sizeof(in zero)) != 0) 
30 printf(", to $s", Inet ntop(AF INET, &pktinfo.ipi addr, 
31 str, sizeof(str))); 
32 if (pktinfo.ipi ifindex » 0) 
33 printf(*, recv i/f = %s", 
34 If indextoname(pktinfo.ipi ifindex, ifname)); 
35 #ifdef  MSG TRUNC 
36 if (flags & MSG TRUNC) 
37 printf(" (datagram truncated)"); 
38 #endif 
39 #ifdef MSG_CTRUNC 
40 if (flags & MSG_CTRUNC) 
41 printf(" (control info truncated)"); 
42 #endif 
43 #ifdef  MSG BCAST 
44 if (flags & MSG, BCAST) 
45 printf(" (broadcast)"); 
46 #endif 
47 #ifdef  MSG MCAST 
48 if (flags & MSG MCAST) 
49 printf(" (multicast)"); 
50 #endif 
51 printf("Mn"); 
52 Sendto(sockfd, mesg, n, 0, pcliaddr, len); 
53 ) 
54 } 


图 22-4 ”调用 recvfrom_flags 函 数 的 dag_echo 函 数 


advio/dgechoaddr.c 
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输出 接收 接口 的 名 字 

32-34 ”如 果 返 回 的 接口 索引 不 是 9， 那 就 调用 if_indextoname 获 取 接 口 名 字 并 显示 。 
测试 各 种 标志 

35.51 ”我 们 接着 另外 测试 4 个 标志 ， 如 果 其 中 任何 一 个 是 打开 的 就 显示 一 个 消息 。 


在 源 自 BSD 的 系统 上 ， 当 到 达 的 一 个 UDP 数据 报 超过 应 用 进程 提供 的 缓冲 区 容量 时 ， 
recvmsg 在 其 msghar 结 构 (图 14-7) 的 msg_flags 成 员 上 设置 MSG_TRUNC 标 志 。 所 有 支持 msghdr 
结构 及 其 msg_flags 成 员 的 源 自 Berkeley 的 实现 都 提供 这 种 道 知 。 


MSG_TRUNC 是 必须 从 内 核 返 回 到 进程 的 标志 之 一 。 我 们 已 在 14.3 节 提 到 过 ， 函 数 recv 和 
recvfrom 存 在 的 一 个 设计 问题 是 它们 的 flags 参 数 是 一 个 整数 , 因而 只 允许 从 进程 到 内 核 传递 
标志 ， 而 不 能 反方 向 返回 标志 . 


不 幸 的 是 ， 并 非 所 有 实现 都 以 这 种 方式 处 理 超过 预期 长 度 的 UDP 数据 报 。 这 里 存在 以 下 3 
个 可 能 的 情形 。 

(1) 丢弃 超出 部 分 的 字 节 并 向 应 用 进程 返回 MSG_TRUNC 标 志 。 本 处 理 方式 要 求 应 用 进程 调用 
recvmsg 以 接收 这 个 标志 。 

(2) 丢弃 超出 部 分 的 字 节 但 不 告知 应 用 进程 这 个 事实 。 

(3) 保留 超出 部 分 的 字 节 并 在 同一 套 接 字 上 后 续 的 读 操作 中 返回 它们 。 


POSIX 采 纳 第 一 种 处 理 行为 : 丢弃 超出 部 分 的 字 节 并 设置 MSG_TRUNC 标 志 。 早期 的 SVR4 
版 本 展现 的 是 第 三 种 类 型 的 行为 。 


既然 不 同 的 实现 在 处 理 超过 应 用 进程 接收 缓冲 区 大 小 的 数据 报时 存在 上 述 差 异 ， 检 测 本 问 
题 的 一 个 有 效 方 法 就 是 ， 总 是 分 配 比 应 用 进程 预期 接收 的 最 大 数据 报 还 多 一 个 字 节 的 应 用 进程 
缓冲 区 。 如 果 收 到 长 度 等 于 该 缓冲 区 的 数据 报 ， 那 就 认定 它 是 一 个 过 长 数据 报 。 
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我 们 已 在 2.3 节 和 2.4 节 讲述 过 UDP 和 TCP 的 主要 区 别 。 既 然 TCP 是 可 靠 的 而 UDP 却 不 是 ， 有 
待 回答 的 问题 就 是 ， 何 时 我 们 应 该 用 UDP 代替 TCP? 为 什么 ? 我 们 首先 列举 UDP 的 优势 。 

e 正如 图 20-1 所 示 ，UDP 支 持 广播 和 多 播 。 事 实 上 如 果 应 用 程序 使 用 广播 或 多 播 ， 那 就 必 
须 使 用 UDP。 我 们 已 在 第 20 章 和 第 21 章 讨论 过 这 两 种 寻 址 模式 。 

。UDP 没 有 连接 建立 和 拆除 。 相 对 于 图 2-5, UDP 只 需要 两 个 分 组 就 能 交换 一 个 请 求 和 一 个 
RE (假设 两 者 的 长 度 都 小 于 两 个 端 系统 之 间 的 最 小 MTU)。TCP 却 需要 大 约 20 个 分 组 ， 
这 里 假设 为 每 次 请 求 -应 答 交 换 建立 一 个 新 的 TCP 连 接 。 

获得 应 答 所 需 的 分 组 往返 次 数 在 这 种 分 组 数目 分 析 中 也 很 重要 。 正 如 TCPv3 附 录 A 
所 述 ， 从 请 求 到 应 答 的 分 组 往返 次 数 在 延迟 超过 带宽 情形 下 变 得 非常 重要 。 那 段 文字 表 
明 ， 就 单个 UDP 请 求 -应 答 交 换 而 言 的 最 小 事务 处 理 时 间 (transaction time) ARTT+SPT, 
其 中 RTT 表 示 客 户 与 服务 器 之 间 的 往返 时 间 (round-trip time)，SPT 则 表示 客户 请 求 的 服 
务 器 处 理 时 间 (server processing time)。 然 而 就 TCP 而 言 ， 如 果 同 样 的 请 求 -应 答 交换 用 
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到 一 个 新 的 TCP 连 接 , 那么 最 小 事务 处 理 时 间 将 是 2XRTT+SPT, 比 UDP 时 间 多 一 个 RTT。 
关于 第 二 点 我 们 应 该 清楚 : 如 果 单个 TCP 连 接 用 于 多 个 请 求 -应答 交 换 ， 那么 连接 的 建立 和 
拆除 开销 就 由 所 有 的 请 求 和 应 答 分 担 ， 这 样 的 设计 通常 比 为 每 个 请 求 -应答 交 换 使 用 新 连接 要 
好 。 尽 管 如 此 ， 有 些 应 用 系统 还 是 为 每 个 请 求 -应 答 交 换 使 用 一 个 新 的 TCP 连 接 ( 辟 如 较 早 版 本 
的 HTTP), 而 有 些 应 用 系统 则 在 客户 和 服务 器 交换 一 个 请 求 -应 答 后 ,可 能 数 小 时 或 数 天 不 再 通 
信 【 壁 如 DNS )。 
我 们 接着 列 出 UDP 无 法 提供 的 TCP 特 性 ， 这 意味 着 如 果 这 些 特性 对 于 具体 应 用 系统 是 必需 
的 ， 那 么 其 应 用 程序 必须 自行 提供 它们 。 需 注意 的 是 ， 不 是 所 有 应 用 程序 都 需要 TCP 的 所 有 这 
些 特性 。 举 例 来 说 ， 对 于 实时 音频 应 用 程序 而 言 ， 如 果 接 收 进程 能 够 通过 插值 弥补 遗失 数据 ， 
那么 丢失 的 分 节 也 许 不 必 重 传 。 同 样 ， 对 于 简单 的 请 求 -应 答 事务 处 理 而 言 ， 如 果 两 端 事先 协定 
最 大 的 请 求 和 应 答 大 小 ， 那 么 也 许 不 需要 窗口 式 流 量 控制 。 
e 正面 确认 ， 丢 失 分 组 重 传 ， 重 复 分 组 检测 ， 给 被 网 络 打 乱 次 序 的 分 组 排序 。TCP 确 认 所 
有 数据 ， 以 便 检测 出 丢失 的 分 组 。 这些 特 性 的 实现 要 求 每 个 TCP 数 据 分 节 都 包含 一 个 能 
被 对 端 确认 的 序列 号 。 这 些 特性 还 要 求 TCP 为 每 个 连接 估算 重 传 超时 值 ， 该 值 应 随 着 两 
个 端 系统 之 间 分 组 流通 的 变化 持续 更 新 。 
e 窗口 式 流 量 控制 。 接 收 端 TCP 告 知 发 送 端 自己 已 为 接收 数据 分 配 了 多 大 的 缓冲 区 空间 ， 
发 送 端 不 能 发 送 超过 这 个 大 小 的 数据 。 也 就 是 说 ， 发 送 端的 未 确认 数据 量 不 能 超过 接收 
端 告知 的 窗口 。 
e 慢 启 动 和 拥塞 避免 。 这 是 由 发 送 端 实施 的 一 种 流量 控制 形式 ， 它 通过 检测 当前 的 网 络 容 
量 来 应 对 阵 发 的 拥塞 。 当 前 所 有 的 TCP 必 须 支 持 这 两 个 特性 ， 而 且 我 们 根据 20 世 纪 80 年 
代 后 期 这 些 算法 实现 之 前 的 经 验 知道 ， 那 些 面临 拥塞 而 不 “后 退 ”(back off) 的 协议 只 
会 导致 拥塞 变 得 更 糟糕 〈 例 如 [Jacobson 1988 D. 
作为 总 结 ， 我 们 可 以 陈述 如 下 建议 。 
e 对 于 广播 或 多 播 应 用 程序 必须 使 用 UDP。 任 何 形式 的 错误 控制 必须 加 到 客户 和 服务 器 程 
序 之 中 ， 不 过 应 用 系统 往往 是 在 可 以 接受 一 定量 《假设 是 少量 ) 的 错误 的 前 提 下 〔〈 例 如 
音频 或 视频 的 分 组 丢失 ) 使 用 广播 和 多 播 。 要 求 可 靠 递 送 的 多 播 应 用 系统 〈 例 如 多 播 文 
件 传 输 ) 确 非 没有 ， 不 过 我 们 必须 衡量 使 用 多 播 的 性 能 收益 〈 发 送 单个 分 组 到 N 个 目的 
地 ， 对 比 跨 N 个 TCP 连 接 发 送 该 分 组 的 N 个 副本 ) 是 否 权 重 于 为 提供 可 靠 通信 而 要 求 增添 
到 应 用 程序 中 的 复杂 性 。 
对 于 简单 的 请 求 - 应 答应 用 程序 可 以 使 用 UDP， 不 过 错误 检测 功能 必须 加 到 应 用 程序 内 
部 。 错 误 检 测 至 少 涉及 确认 、 超 时 和 重 传 。 流 量 控制 对 于 合理 大 小 的 请 求 和 应 答 往往 不 
成 问题 。 我 们 将 在 22.5 节 给 出 的 UDP 应 用 程序 中 提供 这 些 特性 的 一 个 例子 。 这 里 需要 考 
虑 的 因素 包括 客户 和 服务 器 通信 的 频 度 ( 可 否 在 相继 的 通信 之 间 保 持 所 用 的 TCP 连 接 ? ) 
以 及 所 交换 的 数据 量 〈 如 果 通 常 需要 多 个 分 组 ， 那 么 TCP 连 接 的 建立 和 拆除 开销 将 变 得 
不 大 重要 )。 
e 对 于 海量 数据 传输 〈 例 如 文件 传输 ) 不 应 该 使 用 UDP。 因为 这 么 做 除了 上 一 点 要 求 的 特 
性 外 ， 还 要 求 把 窗口 式 流 量 控制 、 拥 塞 避免 和 慢 启 动 这 些 特 性 也 加 到 应 用 程序 中 ， 意 味 
着 我 们 是 在 应 用 程序 中 再 造 TCP。 我 们 应 该 让 厂商 来 关注 更 好 的 TCP 性 能 ， 而 自己 应 该 
致力 于 提升 应 用 程序 本 身 。 
这 些 规则 存在 例外 , 尤其 是 在 现 有 的 应 用 程序 中 。 举例 来 说 , TFTP 就 用 UDP 传送 海量 数据 。 
TFTP 选 用 UDP 的 原因 在 于 ， 在 系统 自 举 引导 代码 中 使 用 UDP 比 使 用 TCP 易 于 实现 〈 例 如 TCPv2 
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中 使 用 UDP 的 C 代 码 约 为 800 行 ， 而 使 用 TCP 则 约 为 4500 行 )， 而 且 TFTP 只 用 于 在 局 域 网 上 引导 
系统 ， 而 不 是 跨 广 域 网 传送 海量 数据 。 不 过 这 样 一 来 就 要 求 TFTP 自 含 用 于 确认 的 序列 号 字段 ， 
并 具备 超时 和 重 传 能 力 。 

NFS 是 这 些 规则 的 另 一 个 例外 : 它 也 用 UDP 传 送 海 量 数 据 (尽管 有 人 可 能 声称 它 实际 上 是 
一 个 请 求 -应 答应 用 系统 ， 不 过 使 用 较 大 的 请 求 和 应 答 而 已 )。 这 样 的 选择 部 分 出 于 历史 原因 ， 
因为 在 20 世 纪 80 年 代 中 期 设计 NFS 的 时 候 , UDP 的 实现 要 比 TCP 的 快 ,而 且 NFS 仅 仅 用 于 局 域 网 ， 
那里 分 组 丢失 率 往 往 比 在 广域网 上 少 几 个 数量 级 。 然 而 随 着 NFS 从 20 世 纪 90 年 代 早期 开始 被 用 
于 跨 广域网 范围 ， 并 且 TCP 的 实现 在 海量 数据 传送 性 能 上 开始 超过 UDP 的 实现 ，NFS 第 3 版 被 设 
计 成 支持 TCP， 大 多 数 厂 商 现 已 改 为 同时 在 UDP 和 TCP 上 提供 NFS。 同 样 的 理由 (20 世纪 80 年 代 
中 期 UDP 要 比 TCP 快 且 局 域 网 上 的 使 用 远 远 超 过 广域网 ) 导致 DCE 远 程 过 程 调用 (remote 
procedure call, RPC) 的 前 身 软 件 包 (Apollo NCS 软 件 包 ) 也 选择 UDP 而 不 是 TCP， 不 过 如 今 的 
实现 同时 支持 UDP 和 TCP。 

既然 如 今 良 好 的 TCP 实 现 能 够 充分 发 挥 网 络 的 带宽 容量 ， 而 且 越 来 越 少 的 应 用 系统 设计 人 
员 愿 意 在 自己 的 UDP 应 用 中 再 造 TCP， 这 些 事 实 可 能 诱 使 我 们 说 : 相 比 TCP，UDP 的 用 途 在 递 
减 。 然 而 预期 中 下 一 个 十 年 多 媒体 应 用 领域 的 增长 将 会 促成 UDP 使 用 的 增加 ， 因 为 多 媒体 通常 
意味 着 需要 UDP 的 多 播 。 
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正如 上 一 节 所 提 , 如 果 想 要 让 请 求 -应 答 式 应 用 程序 使 用 UDP, 那么 必须 在 客户 程序 中 增加 
以 下 两 个 特性 。 

(1) 超时 和 重 传 ， 用 于 处 理 丢 失 的 数据 报 。 

(2) 序列 号 : 供 客户 验证 一 个 应 答 是 否 匹 配 相 应 的 请 求 。 

这 两 个 特性 是 使 用 简单 的 请 求 - 应 答 范 式 的 大 多 数 现 有 UDP 应 用 程序 的 一 部 分 ， 例 如 DNS 
解析 器 、SNMP 代 理 、TFTP 和 RPC。 我 们 不 打算 使 用 UDP 传送 海量 数据 ， 而 是 要 剖析 发 送 一 个 
请 求 并 等 待 一 个 应 答 的 应 用 程序 。 


根据 其 定义 ， 数 据 报 是 不 可 靠 的 ， 因 此 我 们 故意 不 称 如 此 增加 的 可 人 靠 性 为 “可 人 靠 的 数据 
报 服务 ”"。 事 实 上 “可 靠 的 数据 报 ” 是 一 个 自 相 矛盾 的 说 法 。 我 们 将 展示 的 是 在 不 可 靠 的 数据 
报 服务 (UDP) 之 上 加 入 可 靠 性 的 一 个 应 用 程序 . 


增加 序列 号 比较 简单 。 客 户 为 每 个 请 求 冠 以 一 个 序列 号 ， 服 务 器 必须 在 返 送 给 客户 的 应 答 
中 回 射 这 个 序列 号 。 这 样 客户 就 可 以 验证 某 个 给 定 的 应 答 是 否 匹 配 早先 发 出 的 请 求 。 

处 理 超时 和 重 传 的 老式 方法 是 先 发 送 一 个 请 求 并 等 待 N 秒 钟 。 如 果 期 间 没有 收 到 应 答 ， 那 
就 重新 发 送 同 一 个 请 求 并 再 等 待 N 秒 钟 。 如 此 发 生 一 定 次 数 后 放弃 发 送 。 这 是 线性 重 传 定时 器 
的 一 个 例子 。(TCPv1 的 图 6-8 给 出 了 使 用 这 个 技巧 的 TFTP 客 户 程序 的 一 个 例子 。 许 多 TFTP 客 户 
程序 仍 使 用 这 个 方法 。) 

这 个 方法 的 问题 在 于 数据 报 在 网 络 上 的 往返 时 间 可 以 从 局 域 网 的 远 不 到 一 秒 钟 变化 到 广 域 
网 的 好 几 秒 钟 。 影 响 往返 时 间 (RTT)〉 的 因素 包括 距离 、 网 络 速 度 和 拥塞 。 另外， 客户 和 服务 
器 之 间 的 RIT 会 因 网 络 条 件 的 变化 而 随 着 时 间 迅 速 变化 。 我 们 必须 采用 一 个 把 实测 到 的 RTT 及 
其 随时 间 的 变化 考虑 在 内 的 超时 和 重 传 算法 。 这 个 领域 已 有 不 少 研究 工作 ， 大 多 数 涉 及 TCP， 
不 过 同样 的 想法 适用 于 任何 网 络 应 用 。 
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我 们 想 要 计算 用 于 发 送 每 个 分 组 的 重 传 超时 (retransmission timeout，RTO )。 为 此 先 测 量 
每 个 分 组 的 实际 往返 时 间 RTT。 每 测 得 一 个 RTT, 我 们 就 更 新 2 个 统计 估算 因子 : srt 是 平滑 化 RTT 
估算 因子 (smoothed RTT estimator), rttvar 是 平滑 化 平均 偏差 估算 因子 (smoothed mean deviation 
estimator)。 后 者 只 是 标准 偏差 的 一 个 较 好 近似 ， 不 过 由 于 不 涉及 开 方 而 易于 计算 。 有 了 这 2 个 
估算 因子 ， 待 用 的 RTO 就 是 srtt 加 上 4 倍 rttvar。[Jacobson 1988] 给 出 了 这 些 计算 的 所 有 细节 ， 我 
们 可 以 用 以 下 4 个 方程 式 加 以 总 结 。 
delta = 测 得 RTT - srtt 
srtt — srtt+ g X delta 
rttvar ~~ rttvar + h C|delta| - rttvar) 


RTO = srtt+ 4 X rttvar 
delta 是 测 得 RTT 和 当前 平滑 化 RTT 估 算 因 子 (srtt) 之 差 。g 是 施加 在 RTT 估 算 因 子 上 的 增益 ， 
值 为 /8。h 是 施加 在 平均 偏差 估算 因子 上 的 增益 ， 值 为 1/4。 


RTO 计 算 中 的 两 个 增益 和 乘 数 4 都 特意 选 为 2 的 指数 ， 这 样 使 用 移 位 运算 而 不 是 乘除 运算 
就 可 以 计算 相关 值 。 事 实 上 TCP 内 核实 现 (TCPv2 的 25.7 节 ) 为 了 速度 起 见 通常 使 用 定点 算术 
运算 进行 计算 ， 不 过 为 了 简便 起 见 ， 我 们 在 本 节 后 续 代 码 中 使 用 浮 点 计算 。 


[Jacobson 1988] 指出 的 另 一 点 是 : 当 重 传 定时 器 期 满 时 ， 必 须 对 下 一 个 RTO 应 用 某 个 指数 
i (exponential backoff)。 举 例 来 说 ， 如 果 第 一 个 RTO 是 2 秒 ， 期 间 未 收 到 应 答 ， 那 么 下 一 个 
RTO 是 4 秒 。 如 果 仍 未 收 到 应 答 ， 那 么 再 下 一 个 RTO 是 8 秒 、16 秒 ， 依 次 类 推 。 

Jacobson 的 算法 告诉 我 们 每 次 测 得 一 个 RTT 后 如 何 计 算 RTO 以 及 重 传 时 如 何 增 加 RTO。 然 
而 当 我 们 不 得 不 重 传 一 个 分 组 并 随后 收 到 一 个 应 答 时 ， 称 为 “ 重 传 二 义 性 问题 ”(retransmission 
ambiguity problem) 的 新 问题 出 现 了 。 图 22-5 展 示 了 重 传 定时 器 期 满 时 可 能 出 现 的 如 下 3 种 
情形 : 

e 请 求 丢 失 了 ，; 

e NAE EK: 

e RTO 太 小 。 


客户 服务 器 





ERME RTO 太 小 
图 22-5 ” 重 传 定时 器 期 满 时 的 3 种 情形 


当 客 户 收 到 重 传 过 的 某 个 请 求 的 一 个 应 答 时 ， 它 不 能 区 分 该 应 答对 应 哪 一 次 请 求 。 对 于 右 
侧 的 例子 ， 该 应 答对 应 初始 的 请 求 ， 对 于 另外 两 个 例子 ， 该 应 答对 应 重 传 的 请 求 。 
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Karn 的 算法 [Karn and Partridge 1987] 可 以 解决 重 传 二 义 性 问题 ， 即 一 旦 收 到 重 传 过 的 某 
个 请 求 的 一 个 应 答 ， 就 应 用 以 下 规则 。 
e 即使 测 得 一 个 RTT， 也 不 用 它 更 新 估算 因子 ， 因 为 我 们 不 知道 其 中 的 应 答对 应 哪 次 重 传 
的 请 求 。 i 
e 既然 应 答 在 重 传 定时 器 期 满 前 到 达 ,， (可 能 指数 回 退 过 的 ) 当 前 RTO 将 继续 用 于 下 一 个 分 
组 。 只 有 当 我 们 收 到 未 重 传 过 的 某 个 请 求 的 一 个 应 答 时 ， 我 们 才 更 新 RTT 估 算 因 子 并 重 
新 计算 RTO。 
在 编写 我 们 的 RTT 函 数 时 采用 Kam 的 算法 并 不 困难 ， 然 而 还 存在 着 更 为 精妙 的 解决 办 法 。 
这 个 办 法 来 自 TCP 用 于 应 对 “长 胖 管 道 ”( 有 较 高 带宽 或 有 较 长 RTT， 抑 或 两 者 都 有 的 网 络 ) 的 
扩展 ， 见 RFC 1323 [Jacobson, Braden, and Borman 1992]。 本 办 法 除了 为 每 个 请 求 冠 以 一 个 服务 
器 必须 回 射 的 序列 号 外 ， 还 为 每 个 请 求 冠 以 一 个 服务 器 同样 必须 回 射 的 时 间 烙 (timestamp ) 
每 次 发 送 一 个 请 求 时 ， 我 们 把 当前 时 间 保 存在 该 时 间 稚 中 。 当 收 到 一 个 应 答 时 ， 我 们 从 当前 时 
间 减 去 由 服务 器 在 其 应 答 中 回 射 的 时 间 惟 就 算出 RTT。 了 既然 每 个 请 求 携带 一 个 将 由 服务 器 回身 
的 时 间 戳 ， 我 们 可 以 如 此 算出 所 收 到 的 每 个 应 答 的 RTIT。 采 用 本 办 法 不 再 有 任何 二 义 性 。 此 外 ， 
既然 服务 器 所 做 的 只 是 回 射 客户 的 时 间 戳 ， 因 此 客户 可 以 给 时 间 惟 使 用 任何 期 望 的 时 间 单 位 ， 
而 且 客 户 和 服务 器 根本 不 需要 为 此 拥有 同步 的 时 钟 。 


例子 


我 们 接 下 去 通过 一 个 例子 实现 所 有 上 述 内 容 。 首 先 把 图 8-7 中 的 UDP 回 射 客户 程序 的 main 
函数 所 用 的 端口 号 从 sERV_PORT 改 为 7〔 标 准 回 射 服务 器 ， 图 2-18)。 

图 22-6 是 Gg_c1i 函 数 。 与 图 8-8 相 比 ， 仅 有 的 改动 是 把 sendto 和 recvfrom 调 用 替换 为 调用 
我 们 的 新 函数 dag_senda_recv。 





rtt/dg cli.c 
1 #include "unp.h" 
2 ssize t Dg send recv(int, const void *, size t, void *, size t, 
3 const SA *, socklen t); 
4 void 
5 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
6 { 
7 ssize_t n; 
8 char sendline[MAXLINE], recvline[MAXLINE + 1]; 
9 while (Fgets(sendline, MAXLINE, fp) != NULL) ( 
10 n - Dg send recv(sockfd, sendline, strlen(sendline), 
11 recvline, MAXLINE, pservaddr, servien); 
12 recvline[n] = 0; /* null terminate */ 
13 Fputs(recvline, stdout); 
14 ) 
15 } 
rtt/dg cli.c 


图 22-6 ”调用 我 们 的 Gg_send_recv 函 数 的 dg_c1l1i 函 数 


在 给 出 ag_sena_recv 函 数 和 它 调用 的 RIT 函 数 之 前 ， 我 们 先 通 过 图 22-7 给 出 如 何 给 一 个 
UDP 客户 程序 增加 可 靠 性 的 轮廓 。 所 有 以 rtt_ 打 头 的 函数 随后 给 出 。 
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static sigjmp buf jmpbuf; 
{ 


构造 请 求 
Signal(SIGALRM, sig alrm); /* establish signal handler */ 
rtt. newpack () ; /* initialize rexmt counter to 0 */ 
sendagain: 
sendto(); 
alarm(rtt start()); /* set alarm for RTO seconds */ 
if (sigsetjmp(jmpbuf, 1) != 0) ( 
if (rtt timeout()) /* double RTO, retransmitted enough? */ 
放弃 
goto sendagain; /* retransmit */ 
} 
do ( 
recvfrom(); 


) while (序列 号 错误 ) ; 


alarm(0); /* turn off alarm */ 
rtt, stop(); /* calculate RTT and update estimators */ 
处 理应 答 

) 

void 


sig alrm(int signo) 

{ 
98 siglongjmp(jmpbuf, 1}; 
1 ) 


图 22-7 RTT EAE RR ETNA 


当 收 到 一 个 其 序列 号 并 非 期 望 值 的 应 答 时 ， 我 们 再 次 调用 recvfrom， 但 是 不 重 传 请 求 ， 也 
不 重启 运行 中 的 重 传 定数 器 。 注 意图 22-5 右 侧 的 例子 ， 与 重 传 的 那个 请 求 对 应 的 最 后 一 个 应 答 
将 在 客户 下 一 次 发 送 一 个 新 请 求 时 出 现在 套 接 字 接 收 缓冲 区 中 。 它 不 会 引起 问题 ， 因 为 客户 会 
读 入 这 个 应 答 ， 注 意 到 它 的 序列 号 并 非 期 望 值 ， 于 是 丢弃 它 并 再 次 调用 recvfrom。 
我 们 调用 sigsetjmp 和 siglongjmp 来 避免 20.5 节 讨论 过 的 由 sIGALRM 信 和 号 引起 的 竞争 
状态 。 
图 22-8 给 出 了 dg_send_recv 函 数 的 前 半 部 分 。 
1~5 ”我 们 包含 一 个 新 的 头 文件 unprtt .h, 它 在 图 22-10 中 给 出 , 其 中 定义 了 用 于 为 客户 维护 
RTT 信 息 的 rtt_info 结 构 。 我 们 声明 一 个 rtt_info 结 构 变 量 和 许多 其 他 变量 。 
定义 msghar 结 构 和 har 结 构 
6-10 ”我 们 希望 向 调用 者 隐藏 我 们 为 每 个 分 组 冠 以 一 个 序列 号 和 一 个 时 间 截 这 一 事实 。 最 简 
单 的 方法 是 使 用 writev， 作 为 单个 UDP 数据 报 先 写 出 我 们 的 首部 Charity), BAH 
调用 者 的 数据 。 回 顾 一 下 ， 我 们 知道 writev 在 数据 报 套 接 字 上 的 输出 是 单个 数据 报 。 
该 方法 既 比 迫使 调用 者 在 其 缓冲 区 前 部 预 留 供 我 们 使 用 的 空间 来 得 简单 ， 也 比 把 我 们 
的 首部 和 调用 者 的 数据 复制 到 一 个 还 需 分 配 其 空间 的 缓冲 区 中 以 便 调用 单个 senato 来 
得 迅速 。 然 而 由 于 我 们 在 使 用 UDP 且 必须 指定 目的 地 址 ， 因 此 我 们 必须 使 用 sendmsg 
和 recvmsg 的 iovec 能 力 代替 sendto 和 recvfrom。 回 顾 14.5 节 ， 我 们 知道 就 辅助 数据 
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言 ， 有 些 系统 定义 的 msghdar 结 构 比 较 新 ， 较 老 的 系统 定义 的 该 结构 末尾 仍然 是 访问 
权限 成 员 。 为 了 避免 因 插入 用 来 处 理 这 些 差别 的 #ifdef 而 把 代码 搞 复 杂 ， 我 们 把 2 个 
msghqr 结 构 变量 声明 为 stacic 全 局 变量 ， 从 而 按照 C 语 言 规范 迫使 它们 被 初始 化 为 全 
0， 以 后 只 需 简 单 地 忽略 这 2 个 结构 末尾 没有 用 到 的 成 员 。 





rtt/dg send recv.c 


1 #include "unprtt.h" 
2 #include «setjmp.h» 
3 «define RTT DEBUG 
4 static struct rtt info rttinfo; 
5 static int rttinit = 0; 
6 static struct msghdr msgsend, msgrecv; /* assumed init to 0 */ 
7 static struct hdr ( 
8 uint32 t seq; /* sequence # */ 
9 uint32 t ts; /* timestamp when sent */ 
10 } sendhdr, recvhdr; 
li static void sig alrm(int signo); 
12 static sigjmp buf jmpbuf ; 
13 ssize_t 
14 dg send recv(int fd, const void *outbuff, size t outbytes, 
15 void *inbuff, size t inbytes, 
16 const SA *destaddr, socklen t destlen) 
1? ( 
18 ssize t n; 
19 struct iovec iovsend[2], iovrecv[2]; 
20 if (rttinit -- 0) ( 
21 rtt init(&rttinfo); /* first time we're called */ 
22 rttinit - 1; 
23 rtt d flag - 1; 
24 } 
25 sendhdr .seq++; 
26 msgsend.msg_name = destaddr; 
27 msgsend.msg_namelen = destlen; 
28 msgsend.msg_iov = iovsend; 
29 msgsend.msg_iovlen = 2; 
30 iovsend[0].iov base = &sendhdr; 
31 iovsend[0].iov len - sizeof(struct hdr); 
32 iovsend[1].iov base - outbuff; 
33 iovsend[1].iov len = outbytes; 
34 msgrecv.msg name - NULL; 
35 msgrecv.msg namelen - 0; 
36 msgrecv.msg iov - iovrecv; 
37 msgrecv.msg iovlen - 2; 
38 iovrecv[0].iov base = &recvhdr; 
39 iovrecv[0].iov, len = sizeof(struct hdr); 
40 iovrecv[1].iov base - inbuff; 
41 iovrecv[1].iov len = inbytes; 


= rtldg_send recv.c 
图 22-8 dg send recv?ÉY€E: 前 半 部 分 

首次 被 调用 时 进行 初始 化 

20-24 ” 当 本 函数 首次 被 调用 时 ， 调 用 rtt_init 函 数 进行 初始 化 。 

填写 msghar 结 构 

25-41 ”填写 分 别 用 于 输入 和 输出 的 2 个 msghar 结 构 。 给 当前 分 组 递增 发 送 序 列 号 , 但 是 直到 发 
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送 之 前 暂 不 设置 发 送 时 间 戳 〈 因 为 该 分 组 有 可 能 被 重 传 ， 而 每 次 重 传 都 需要 当前 时 间 
BO. 
本 函数 的 后 半 部 分 以 及 sig_alrm 信 号 处 理 函数 在 图 22-9 中 给 出 。 





rit/dg send recv.c 


42 Signal(SIGALRM, sig alrm); 

43 rtt newpack(&rttinfo); /* initialize for this packet */ 

44 sendagain: 

45 sendhdr.ts = rtt ts(&rttinfo); 

46 Sendmsg(fd, &msgsend, 0); 

47 alarm(rtt start(&rttinfo)); /* calc timeout value & start timer */ 
48 if (sigsetjmp(jmpbuf, 1) !- 0) ( 

49 if (rtt timeout(&rttinfo) « 0) ( 

50 err msg("dg send recv: no response from server, giving up"); 
51 rttinit - 0; /* reinit in case we're called again */ 
52 errno - ETIMEDOUT; 

53 return(-1); 

54 } 

55 goto sendagain; 

56 } 

57 do { 

58 n - Recvmsg(fd, &msgrecv, 0); 

59 ) while (n < sizeof(struct hdr) || recvhdr.seq != sendhdr.seq); 

60 alarm(0); /* stop SIGALRM timer */ 

61 /* calculate & store new RTT estimator values */ 

62 rtt stop(&rttinfo, rtt ts(&rttinfo) - recvhdr.ts); 

63 return(n - sizeof(struct ndr)); /* return size of received datagram */ 
64 } 


65 static void 
66 sig_alrm(int signo) 





67 { 
68 siglongjmp(jmpbuf, 1); 
69 } 
rit/dg_send_recv.c 
图 22-9 dg_send_recvMiM: 后 半 部 分 9 
建立 信号 处 理 函 数 


42~43 ”建立 一 个 SIGALRM 信 号 处 理 函 数 ， 调 用 rtt_newpack 把 重 传 计数 器 设置 为 0。 

发 送 数 据 报 

45-A7 ”调用 rtt_ts 获 取 当 前 时 间 蕉 ， 并 把 它 存 入 将 安置 在 用 户 数 据 之 前 的 hdr 结构 中 。 调 用 
sendmsg 发 送 单个 UDP 数据 报 。rtt_scart 返 回 以 秒 钟 为 单位 的 本 次 超时 值 ， 我 们 以 此 
调用 alarm 以 调度 SIGALRM 

建立 跳 转 缓冲 区 . 

48 调用 sigsetjmp 为 信号 处 理 函数 建立 了 一 个 跳 转 缓冲 区 。 若 sigsetjmp 的 返回 不 是 由 长 跳 转 

引起 则 调用 recvmsg 等 待 下 一 个 数据 报 的 到 达 。 (我 们 已 在 图 20-9 中 随 SIGALRM 讨 论 过 
sigsetjmp 和 siglongjmp 的 用 法 ) 。 如 果 alarm 定 时 器 期 满 ，sigsetjmp 就 由 长 跳 转 返回 1。 


© 图 22-9 中 存在 一 个 非 致命 的 竞争 状态 如 果 sIGALRM 是 在 某 个 成 功 的 recvmsg 调 用 之 后 的 第 59 行 和 第 60 行 之 间 递 


交 ， 那 么 它 将 导致 一 次 非 必 要 的 重 传 。 一 一 译 者 注 
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处 理 超时 
49-55 ” 当 超 时 发 生 时 ，rtt_timeout 用 于 计算 下 一 个 RTO 指 数 回 退 )， 而 且 若 应 放弃 则 返回 
-1， 若 应 重 传 则 返回 0。 若 放弃 则 把 errno 设 置 为 ETIMEDoUT 并 返回 给 调用 者 。 
调用 recvmeg， 比 较 序列 号 
57-59 ”通过 调用 recvmsg 等 待 一 个 数据 报 的 到 达 。 所 接收 数据 报 的 长 度 必须 至 少 是 我 们 的 har 
结构 的 大 小 ， 而 且 其 序列 号 必须 等 于 所 发 送 数据 报 的 序列 号 。 如 果 有 一 个 比较 失败 ， 
那 就 再 次 调用 recvmsg。 
关闭 alarm 并 更 新 RTT 估 算 因 子 
60-62 ” 收 到 期 待 的 应 答 后 ， 关 闭 尚未 期 满 的 alarm 并 调用 rtt_scop 更 新 RIT 估 算 因 子 。 
rtt_stop 调 用 中 , rtt_ts 返 回 当前 时 间 哈 ,从 中 减 去 所 接收 数据 报 的 时 间 戳 得 到 RTT。 
SIGRLRM 处 理 函 数 
65-69 ”调用 siglongjmp， 使 dg_send_recv 中 的 sigsetjmp 返 回 1。 
我 们 接着 查看 由 dg_send_recv 调 用 的 各 个 RTT 函 数 。 图 22-10 给 出 了 unprtt .h 头 文件 。 

















lib/unprtt.h 
1 #ifndef _ unp rtt h 
2 #define , unp rtt, h 
3 #include "unp.h" 
4 struct rtt info ( 
5 float rtt rtt; /* most recent measured RTT, in seconds */ 
6 float rtt. srtt; /* smoothed RTT estimator, in seconds */ 
7 float rtt rttvar; /* smoothed mean deviation, in seconds */ 
8 float rtt rto; /* current RTO to use, in seconds */ 
9 int rtt nrexmt; /* $ times retransmitted: 0, 1, 2, ... */ 
10 uint32 t rtt, base; /* 4 sec since 1/1/1970 at start */ 
11 }; 
12 #define RTT RXTMIN 2 /* min retransmit timeout value, in seconds */ 
13 #define RTT RXTMAX 60 /* max retransmit timeout value, in seconds */ 
14 #define RTT MAXNREXMT 3 /* max # times to retransmit */ 
15 /* function prototypes */ 
16 void rtt debug(struct rtt info *); 
17 void rtt init(struct rtt info *); 
18 void rtt newpack(struct rtt info *); 
19 int rtt, start(struct rtt, info *); 
20 void rtt stop(struct rtt info *, uint32 t]; 
21 int rtt_timeout (struct rtt info *); 
22 uint32 t rtt ts(struct rtt info *); 
23 extern int rtt, d flag: /* can be set to nonzero for addl info */ 
24 #endif /* — unp rtt h */ 
$$ fib/unprit 
图 22-10 unprtt .hn 头 文件 
rtt_info 结 构 
4~11 ”这 个 结构 含有 用 于 在 客户 和 服务 器 之 间 定 时 分 组 所 必需 的 变量 。 前 4 个 变量 来 自 本 节 开 
始 处 给 出 的 方程 式 。 


12-14 ”这 些 常 值 定义 最 小 和 最 大 重 传 超时 值 以 及 最 大 重 传 次 数 。 
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图 22-11 给 出 了 一 个 宏和 前 2 个 RTT 函 数 。 


oe -Joul etu N P 


wo 


libri. 
#include “unprtt.h" 
int rtt_d_flag = 0; /* debug flag; can be set by caller */ 
/* 
* Calculate the RTO value based on current estimators: 
* smoothed RTT plus four times the deviation 
$F 


#define RTT_RTOCALC (ptr) ((ptr)->rtt_srtt + (4.0 * (ptr)->rtt_rttvar) 


static float 
rtt minmax(float rto) 
{ 
if (rto < RTT_RXTMIN) 
rto - RTT RXTMIN; 
else if (rto » RTT RXTMAX) 
rto - RTT RXTMAX; 
return (rto); 
) 
void 
rtt init(struct rtt info *ptr) 
{ 
struct timeval tv; 
Gettimeofday (&tv, NULL); 
ptr-»rtt base = tv.tv sec; /* # sec since 1/1/1970 at start */ 
ptr-»rtt rtt 0; 
ptr-»rtt srtt 0; 
ptr-»rtt rttvar - 0.75; 
ptr-»rtt rto = rtt minmax(RTT RTOCAILC (ptr)); 
/* first RTO at (srtt « (4 * rttvar)) - 3 seconds */ 


bttc 
图 22-11 RTT_RTOCALC 宏 以 及 rtt_minmax 和 rtt_init 函 数 


RTT_RTOCALC 宏 用 RTT 估 算 因 子 加 上 4 倍 平均 偏差 估算 因子 计算 出 RTO。 

rtt_minmax 确 保 RTO 在 unprtt .h 头 文件 中 定义 的 上 下 界 之 间 。 

rtt_init 由 dg_senqd_recv 在 首次 发 送 任 意 一 个 分 组 时 调用 。 其 中 gettimeofday 返 回 
当前 时 间 和 日 期 ， 存 放 在 select 函 数 (6.3 节 ) 也 使 用 的 timeval 结 构 中 。 我 们 仅仅 保 
存 自 Unix 纪 元 (1970 年 1 月 1 日 00:00:00 UTC 时 间 ) 以 来 的 秒 钟 数 。 测 得 的 RTT 初 署 为 0， 
RTT 估 算 因 子 和 平均 偏差 估算 因子 分 别 初 置 为 Oo 和 0.75， 给 出 初始 RTO 为 3 秒 钟 。 


图 22-12 给 出 以 下 3 个 RTT 函 数 。 


34~42 


43~47 


48~53 


rtt_ts 返 回 当前 时 间 改 , 供 调用 者 作为 一 个 无 符号 32 位 整数 存放 在 待 发 送 的 数据 报 中 。 
我 们 调用 gettimeofdGay 获 取 当 前 时 间 和 日 期 , 从 中 减 去 调用 rtt_init 时 的 秒 钟 数 ( 即 
存放 在 rtt_base 中 的 值 )， 接 着 把 这 个 差 值 转换 成 毫秒 数 ， 并 把 由 gettimeofday 返 回 
的 微 秒 值 转换 成 毫秒 数 。 时 间 惟 就 是 以 毫秒 为 单位 的 这 两 个 数值 之 和 。 

两 次 xtt_ts 调 用 返回 值 之 差 就 是 这 两 次 调用 之 间 的 毫秒 数 。 我 们 把 以 毫秒 为 单位 的 时 
间 玲 存放 在 无 符号 32 位 整数 中 ， 而 不 是 存放 在 timeval 结 构 中 。 
rtt_newpack 只 是 把 重 传 计数 器 设置 为 0。 每 当 第 一 次 发 送 一 个 新 的 分 组 时 ， 都 得 调用 
这 个 函数 。 

rtt_stazt 以 秒 为 单位 返回 当前 RTO。 返 回 值 随后 可 用 作 alarm 的 参数 。 
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lib/rtt.c 
34 uint32 t 
35 rtt ts(struct rtt info *ptr) 
36 ( 
37 uint32 t ts; 
38 struct timeval tv; 
39 Gettimeofday (&tv, NULL); 
40 ts = ((tv.tv_sec - ptr->rtt_base) * 1000) + (tv.tv_usec / 1000); 
41 return(ts); 
42 } 
43 void 
44 rtt, newpack(struct rtt info *ptr) 
45 ( 
46 ptr-»rtt nrexmt - 0; 
47 ) 
48 int 
49 rtt start(struct rtt info *ptr) 
50 { 
51 return((int) (ptr-»rtt rto + 0.5)); /* round float to int */ 
52 /* return value can be used as: alarm(rtt start(&foo)) */ 
53 ) 
oo lib/rtt.c 





图 22-12 rtt ts. rtt_newpack#lrtt_start BM 


图 22-13 给 出 的 rtt_stop 在 收 到 一 个 应 答 后 调用 ， 用 于 更 新 RTT 估 算 因子 并 计算 新 的 RTO。 


62 void 

63 rtt stop(struct rtt info *ptr, uint32 t ms) 

64 ( 

65 double delta; 

66 ptr-»rtt rtt - ms / 1000.0; /* measured RTT in seconds */ 

67 /* 

68 * Update our estimators of RTT and mean deviation of RTT. 

69 * See Jacobson's SIGCOMM '88 paper, Appendix A, for the details. 
70 * we use floating point here for simplicity. 

71 */ 

72 delta - ptr-»rtt rtt - ptr-»rtt srtt; 

73 ptr-»rtt srtt «- delta / 8; /*g-1/8 */ 

74 if (delta « 0.0) 

75 delta - -delta; /* |delta| */ 

76 ptr-»rtt rttvar -- (delta - ptr-»rtt rttvar) / 4; /* ne 4e) 
71 ptr-»rtt rto = rtt minmax(RTT RTOCALC(ptr)); 

78 ) 





图 22-13 ”rtt_stop 函 数 : 更 新 RTT 估 算 因 子 并 计算 新 的 RTO 


lib/rtt.c 


lib/rtt.c 


62-78 ”第 二 个 参数 是 测 得 的 RTT， 它 由 调用 者 通过 从 当前 时 间 惟 (rtt_ts) 中 减 去 收 到 的 应 
答 中 的 时 间 岭 得 到 。 本 函数 应 用 本 节 开 始 处 的 方程 式 ， 在 rtt_srtt、rtt_rttvar 和 


rtt_rto 这 3 个 成 员 中 存放 新 值 。 
图 22-14 给 出 的 最 后 一 个 RTT 函 数 rtt_timeout 在 重 传 定 时 器 期 满 时 调用 。 
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- lib/rtt.c 
83 int 
84 rtt_timeout (struct rtt_info *ptr) 
85 { 
86 ptr->rtt_rto *= 2; /* next RTO */ 
87 if (++ptr->rtt_nrexmt > RTT_MAXNREXMT) 
88 return(-1); /* time to give up for this packet */ 
89 return(0); 
90 } 

lib/rtt.c 








图 22-14 rtt timeoutER AX: 应 用 指数 回 退 


86 ”当前 RTO 加 倍 : 这 就 是 指数 回 退 。 
87-89 ”如 果 已 经 达到 最 大 重 传 次 数 ， 那 就 返回 -1， 告 知 调用 者 放弃 ; 否则 返回 0。 

作为 一 个 例子 , 我 们 的 客户 程序 在 某 个 工作 日 早上 针对 2 个 跨 因 特 网 的 不 同 echo 服 务 器 执行 
了 2 次 。 发 送 给 每 个 服务 器 的 都 是 500 行 文本 。 去 往 第 一 个 服务 器 的 分 组 有 8 个 丢失 ， 去 往 第 二 个 
服务 器 的 有 16 个 丢失 。 去 往 第 二 个 服务 器 的 丢失 分 组 中 ， 有 一 个 连 着 丢失 两 次 ， 也 就 是 说 在 收 
到 该 分 组 的 某 个 应 答 之 前 ， 客 户 不 得 不 重 传 该 分 组 两 次 。 所 有 其 他 丢失 分 组 都 只 需要 一 次 重 传 
处 理 。 我 们 可 以 通过 显示 每 个 收 到 分 组 的 序列 号 来 验证 这 些 分 组 确实 丢失 了 。 如 果 一 个 分 组 仅 
仅 被 延迟 而 并 没有 丢失 , 那么 重 传 之 后 客户 会 收 到 两 个 应 答 : 一 个 对 应 于 被 延迟 了 的 初始 传送 ， 
另 一 个 对 应 于 再 次 传送 。 当 重 传 分 组 时 ， 我 们 无 法 区 分 被 丢弃 的 分 组 究竟 是 客户 的 请 求 还 是 服 
务 器 的 应 答 。 


为 了 测试 本 客户 程序 , 作者 在 本 书 第 一 版 中 编写 了 一 个 随机 丢弃 分 组 的 UDP 服务 器 程序 。 
这 种 程序 现在 不 再 需要 了 ; 我 们 只 要 针对 一 个 跨 因 特 网 的 服务 器 执行 客户 程序 就 行 ， 我 们 几 
乎 可 以 保证 总 有 些 分 组 会 丢失 ! 


get_ifi_info 函 数 的 常见 用 途 之 一 是 用 于 需要 监视 本 地 主机 所 有 接口 以 便 获悉 某 个 数据 
报 在 何 时 及 哪个 接口 上 到 达 的 UDP 应 用 程序 。 这 种 用 途 允 许 接收 程序 获悉 该 UDP 数据 报 的 目的 
地 址 ， 因 为 决定 一 个 数据 报 的 递送 套 接 字 的 正 是 它 的 目的 地 址 ， 即 使 主机 不 支持 
IP_RECVDSTADDR 套 接 字 选项 也 不 影响 目的 地 址 的 获悉 。 


回顾 22.2 节 末尾 的 讨论 . 如 果 主 机 使 用 普通 的 弱 端 系统 模型 , 那么 目的 IP 地 址 可 能 不 同 于 
接收 接口 的 于 地 址 。 这 种 情况 下 我 们 只 能 确定 数据 报 的 目的 地 址 ， 它 不 必 是 分 配给 接收 接口 的 
菜 个 地 址 。 为 了 确定 接收 接口 ， 需 要 IP_RECVIF 或 TPV6_PKTINFO 这 两 个 套 接 字 选项 之 一 . 


图 22-15 给 出 了 使 用 该 技术 的 一 个 简单 UDP 服 务 器 程序 例子 的 第 一 部 分 , 它 捆绑 所 有 单 播 地 
址 、 所 有 广播 地 址 以 及 通 配 地 址 。 
调用 get_ifi_info 获 取 接 口 信息 
11-12 调用 get_ifi_info 获 取 所 有 接口 的 所 有 IPv4 地 址 ， 包 括 别名 地 址 在 内 。 本 程序 接着 遍 
历 每 个 返回 的 ifi_info 结 构 。 
创建 UDP 套 接 字 并 捆绑 单 播 地 址 
13-20 ”创建 一 个 UDP 套 接 字 ， 在 其 上 捆绑 单 播 地 址 。 我 们 还 设置 so_REUSEADDR 套 接 字 选项 ， 
因为 我 们 要 给 所 有 下 地 址 捆绑 同一 个 端口 (SERV_PORT)。 
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—e advio/udpserv03.c 
1 #include "unpifi.h" 
2 void mydg, echo(int, SA *, socklen t, SA *); 
3 int 
4 main(int argc, char **argv) 
5 { 
6 int sockfd; 
7 const int on = 1; 
8 pid_t pid; 
9 struct ifi_info *ifi, *ifihead; 
10 struct sockaddr in *sa, cliaddr, wildaddr; 
1i for (ifihead - ifi - Get ifi, info(AF INET, 1); 
12 ifi !- NULL; ifi = ifi-»ifi next) ( 
13 /* bind unicast address */ 
14 sockfd = Socket(AF INET, SOCK DGRAM, 0); 
15 Setsockopt (sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
16 sa = (struct sockaddr in *) ifi-»ifi addr; 
17 Sa-»sin family = AF INET; 
18 sa->sin_port = htons(SERV. PORT); 
19 Bind(sockfd, (SA *) sa, sizeof(*sa)); 
20 printf("bound %s\n", Sock ntop((SA *) sa, sizeof(*sa))); 
21 if ( (pid = Fork()) == 0) ( /* child */ 
22 mydg echo(sockfd, (SA *) &cliaddr, sizeof(cliaddr), (SA *) sa); 
23 exit(0); /* never executed */ 
24 ) 
M ——————— —— — — — —advio/udpserv03.c 


图 22-15 ”捆绑 所 有 地 址 的 UDP 服务 器 程序 的 第 一 部 分 


并 非 所 有 的 实现 都 需要 设置 这 个 套 接 字 选 项 。 举例 来 说 , 源 自 Berkeley 的 实现 不 需要 该 选 
项 就 允许 重新 bind 一 个 已 经 绑 定 的 端口 ， 只 要 新 捆绑 的 下地 址 : (a) 不 是 通 配 地 址 ，(b) 不 
同 于 已 经 绑 定 在 该 端口 上 任何 一 个 IP 地 址 


为 当前 地 址 fork 子 进程 
21-24 ”fork 一 个 子 进程 并 由 子 进 程 调用 mydg_echo 函 数 。 该 函数 等 待 任意 数据 报到 达 这 个 套 
接 字 ， 然 后 把 它 回 射 给 发 送 者 。 
图 22-16 给 出 了 main 函 数 的 第 二 部 分 ， 这 部 分 处 理 的 是 广播 地 址 。 
捆绑 广播 地 址 
25-42 ”如果 当 前 接口 支持 广播 ， 那 就 创建 一 个 UDP 套 接 字 并 在 其 上 捆绑 广播 地 址 。 这 次 我 们 
允许 bina 调 用 以 EADDRINUSE 错 误 返 回 失败 的 结果 , 因为 如 果 某 个 接口 有 多 个 处 于 同一 
个 子 网 的 地 址 (别名 )， 那 么 这 些 单 播 地 址 要 对 应 同一 个 广播 地 址 。 我 们 在 图 17-6 之 后 
给 出 过 这 样 的 一 个 例子 。 这 种 情形 下 我 们 只 能 期 望 第 一 次 bina 是 成 功 的 。 
fork 子 进程 
43~47 ”forxk 一 个 子 进程 并 由 子 进程 调用 mydg_echo 函 数 。 
main 函 数 最 后 一 部 分 在 图 22-17 中 给 出 。 这 段 代码 bina 通 配 地 址 ， 以 处 理 除 已 经 绑 定 的 单 
播 和 广播 地 址 之 外 的 任何 目的 地 址 。 能 够 到 达 这 个 套 接 字 的 数据 报 只 应 该 是 目的 地 为 受 限 广播 
地 址 (255.255.255.255) 的 数据 报 。 
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advio/udpserv03.c 
25 if (ifi-»ifi flags & IFF BROADCAST) { 
26 /* try to bind broadcast address */ 
27 sockfd = Socket (AF_INET, SOCK DGRAM, 0); 
28 Setsockopt (sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
29 Sa = (struct sockaddr in *) ifi-»ifi, brdaddr; 
30 sa-»sin family = AF INET; 
31 sa-»sin port = htons(SERV. PORT); 
32 if (bind(sockfd, (SA *) sa, sizeof(*sa)) < 0) ( 
33 if (errno -- EADDRINUSE) ( 
34 printf("EADDRINUSE: %s\n", 
35 Sock ntop((SA *) sa, sizeof(*sa))); 
36 Close(sockfd); 
37 continue; 
38 ) else 
39 err sys("bind error for $s", 
40 Sock ntop((SA *) sa, sizeof(*sa))); 
41 } 
42 printf ("bound %s\n", Sock ntop((SA *) sa, sizeof (*sa))); 
43 if ( (pid = Fork()) == 0) { /* child */ 
44 mydg_echo(sockfd, (SA *) &cliaddr, sizeof(cliaddr), 
45 (SA *) sa); 
46 exit (0); /* never executed */ 
47 } 
48 $ 
49 } 
= — ———— HÀ —— — — — — —— advio/udpserv03.c 
图 22-16 ”捆绑 所 有 地 址 的 UDP 服务 器 程序 的 第 二 部 分 
advio/udpserv03.c 
50 /* bind wildcard address */ 
51 sockfd = Socket (AF_INET, SOCK DGRAM, 0); 
52 Setsockopt (sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
53 bzero(&wildaddr, sizeof (wildaddr)); 
54 wildaddr.sin_family = AF_INET; 
55 wildaddr.sin_addr.s_addr = htonl(INADDR ANY); 
56 wildaddr.sin_port = htons(SERV_PORT) ; 
57 Bind(sockfd, (SA *) &wildaddr, sizeof (wildaddr)); 
58 printf("bound %s\n", Sock ntop((SA *) &wildaddr, sizeof (wildaddr))); 
59 if ( (pid = Fork()) == 0) { /* child */ 
60 mydg_echo(sockfd, (SA *) &cliaddr, sizeof(cliaddr), (SA *) sa); 
61 exit (0); /* never executed */ 
62 F 
63 exit (0); 
64 
advio/udpserv03.c 
图 22-17 ”捆绑 所 有 地 址 的 UDP 服务 器 程序 的 最 后 一 部 分 
创建 套 接 字 并 捆绑 通 配 地 址 


50-62 ”创建 一 个 UDP 套 接 字 ， 设 置 so_REUSEADDR 套 接 字 选 项 ， 捆 绑 通 配 IP 地 址 。 派 生 一 个 子 


进程 并 由 子 进程 调用 mydg_echo 函 数 。 


maine MH it 
63 main 函数 终止 ， 服 务 器 父 进程 结束 ， 不 过 已 派生 的 所 有 子 进程 继续 运行 。 
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图 22-18 给 出 了 所 有 子 进 程 都 执行 的 mydsg_echo 函 数 。 





— advio/udpserv03.c 
65 void 
66 mydg_echo(int sockfd, SA *pcliaddr, socklen_t clilen, SA *myaddr) 
67 { 
68 int n; 
69 char mesg [MAXLINE] ; 
70 socklen_t len; 
p; for (3:3) { 
72 len = clilen; 
73 n = Recvfrom(sockfd, mesg, MAXLINE, 0, pcliaddr, &len); 
74 printf("child $d, datagram from %s", getpid(), 
75 Sock_ntop(pcliaddr, len)); 
76 printf(", to %s\n", Sock_ntop(myaddr, clilen)); 
77 Sendto(sockfd, mesg, n, 0, pcliaddr, len); 
78 } 
79 ) 
———— M — M ——————————  — —-—advio/udpserv03.c 
图 22-18 mydg_echo XX 
新 参数 


65-66 “本 函数 的 第 四 个 参数 是 绕 定 在 给 定 套 接 字 上 的 耳 地 址 。 这 个 套 接 字 应 该 只 接收 目的 地 
址 为 该 地 址 的 数据 报 。 如 果 该 IP 地 址 是 通 配 地 址 ， 那 么 这 个 套 接 字 应 该 只 接收 与 绑 
定 到 同一 端口 的 任何 其 他 套 接 字 都 不 匹配 的 数据 报 。 


读 入 数据 报 并 且 返 送 应 答 
71-78 ”调用 recvfrom 读 入 数据 报 ， 再 调用 sendto 把 它 发 回 给 客户 。 本 函数 还 输出 客户 的 IP 地 
址 以 及 绑 定 在 这 个 套 接 字 上 的 趾 地 址 。 

在 主机 solaris 上 先 为 hme0 以 太 网 接口 设置 一 个 别名 地 址 ， 再 运行 本 程序 。 那 个 别名 地 址 
为 10.0.0.200/24。 

solaris $ udpserv03 

bound 127.0.0.1:9877 环 回 接口 

bound 10.0.0.200:9877 hme0 :1 接口 的 单 播 地 址 

bound 10.0.0.255:9877 hme0 :1 接口 的 广播 地 址 

bound 192.168.1.20:9877 hme0 接 口 的 单 播 地 址 

bound 192.168.1.255:9877 hme0 接 口 的 广播 地 址 

bound 0.0.0.0:9877 通 配 地 址 


我 们 可 以 使 用 netstat 检 查 所 有 这 些 套 接 字 确 实 绑 定 了 所 指出 的 卫 地 址 和 端口 号 。 


solaris $ netstat -na | grep 9877 


127.0.0.1.9877 Idle 
10.0.0.200.9877 Idle 
*.9877 Idle 
192.129.100.100.9877 Idle 
*,9877 Idle 
*.9877 Idle 


应 该 指出 ， 我 们 采用 为 每 个 套 接 字 派 生 一 个 子 进程 的 设计 只 为 简单 起 见 ， 也 可 以 采用 其 他 
的 设计 。 举 例 来 说 ,为 了 减少 进程 数目 ,程序 可 以 使 用 select 管 理 所 有 描述 符 , 而 不 必 调 用 fork。 
该 设计 的 问题 在 于 代码 复杂 性 增长 。 尽 管 使 用 select 可 以 很 容易 地 检测 所 有 描述 符 的 可 访问 条 
件 ， 我 们 却 不 得 不 维护 从 每 个 描述 符 到 它 的 绑 定 下 地 址 的 某 类 映射 〈 可 能 是 一 个 结构 数组 )， 这 
样 当 从 某 个 套 接 字 读 入 一 个 数据 报时 ， 我 们 能 够 显示 它 的 目的 耻 地 址 。 为 每 个 操作 或 描述 符 使 
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用 单独 的 进程 或 线程 往往 比 由 单个 进程 多 路 处 理 多 个 不 同 的 操作 或 描述 符 来 得 简单 。 


大 多 数 UDP 服 务 器 程序 是 迭代 运行 的 ， 服 务 器 等 待 一 个 客户 请 求 ， 读 入 这 个 请 求 ， 处 理 这 
个 请 求 ， 送 回 其 应 答 ， 接 着 等 待 下 一 个 客户 请 求 。 然 而 当 客 户 请 求 的 处 理 需 耗 用 过 长 时 间 时 ， 
我 们 期 望 UDP 服务 器 程序 具有 某 种 形式 的 并 发 性 。 

“过 长 时 间 ” 是 指 另 一 个 客户 因 服务 器 正在 服务 当前 客户 而 被 迫 等 待 的 被 认为 是 太 长 的 时 
间 。 举 例 来 说 ， 如 果 两 个 客户 请 求 在 10ms 内 相继 到 达 ， 而 且 每 个 客户 的 平均 服务 时 间 为 $ 秒 
钟 ， 那 么 第 二 个 客户 不 得 不 等 待 约 10 秒 钟 才能 收 到 应 答 ， 而 不 是 请 求 一 到 达 就 处 理 情形 下 的 
约 5 秒 钟 。 

对 于 TCP 服 务 器 ， 并 发 处 理 只 是 简单 地 fork 一 个 新 的 子 进程 (或 者 创建 一 个 新 的 线程 ， 见 
第 26 章 )， 并 让 子 进程 处 理 新 的 客户 。 当 使 用 TCP 时 ， 服 务 器 的 并 发 处 理 得 以 简化 的 根源 在 于 每 
个 客户 连接 都 是 唯一 的 : 标识 每 个 客户 连接 的 是 唯一 的 TCP 套 接 字 对 。 然 而 对 于 UDP， 我 们 必 
须 应 对 两 种 不 同类 型 的 服务 器 。 

(1) 第 一 种 UDP 服务 器 比较 简单 ， 读 入 一 个 客户 请 求 并 发 送 一 个 应 答 后 ,与 这 个 客户 就 不 再 
相关 了 。 这 种 情形 下 ， 读 入 客户 请 求 的 服务 器 可 以 fork 一 个 子 进程 并 让 子 进程 去 处 理 该 请 求 。 
该 “请 求 ”〈 即 请 求 数据 报 的 内 容 以 及 含有 客户 协议 地 址 的 套 接 字 地 址 结构 ) 通过 由 forkx 复 制 
的 内 存 映 像 传递 给 子 进 程 。 然 后 子 进程 把 它 的 应 答 直 接 发 送 给 客户 。 

(2) 第 二 种 UDP 服务 器 与 客户 交换 多 个 数据 报 。 问题 是 客户 知道 的 服务 器 端口 号 只 有 服务 器 
的 一 个 众所周知 端口 。 一 个 客户 发 送 其 请 求 的 第 一 个 数据 报到 这 个 端口 ， 但 是 服务 器 如 何 区 分 
这 是 来 自 该 客户 同一 个 请 求 的 后 续 数 据 报 还 是 来 自 其 他 客户 请 求 的 数据 报 呢 ? 这 个 问题 典型 的 
解决 办 法 是 让 服务 器 为 每 个 客户 创建 一 个 新 的 套 接 字 ， 在 其 上 bina 一 个 临时 端口 ， 然 后 使 用 该 
套 接 字 发 送 对 该 客户 的 所 有 应 答 。 这 个 办 法 要 求 客户 查看 服务 器 第 一 个 应 答 中 的 源 端口 号 ， 并 
把 本 请 求 的 后 续 数据 报 发 送 到 该 端口 。 

第 二 种 类 型 UDP 服务 器 的 一 个 例子 是 TFTP。 使 用 TFTP 传 送 一 个 文件 通常 需要 许多 数据 报 
《成 百 上 千 ， 取 决 于 文件 长 度 )， 因 为 该 协议 发 送 的 每 个 数据 报 只 有 512 字 节 的 数据 。 客 户 往 服务 
器 的 众所周知 端口 《69) 发 送 一 个 数据 报 ， 指 定 要 发 送 或 接收 的 文件 。 服 务 器 读 入 该 请 求 ， 但 
是 从 另外 一 个 由 它 创 建 并 绑 定 某 个 临时 端口 的 套 接 字 发 送 它 的 应 答 。 客 户 和 服务 器 之 间 传 送 该 
文件 的 所 有 后 续 数 据 报 都 使 用 这 个 新 的 套 接 字 。 这 么 做 允许 主 TFTP 服 务 器 在 文件 传送 发 生 的 同 
时 《可 能 持续 数秒 钟 甚至 数 分 钟 ) 继续 处 理 到 达 端 口 69 的 其 他 客户 请 求 。 

对 于 一 个 独立 的 TFTP 服 务 器 〈 即 不 是 由 ineta 激 发 )， 我 们 有 图 22-19 所 示 的 情形 。 我 们 假 
设 子 进 程 捆绑 到 新 套 接 字 上 的 临时 端口 是 2134。 

对 于 由 ineta 激 活 的 TFTP 服 务 器 ， 其 情形 涉及 另外 一 个 步骤 。 回 顾 图 13-6， 我 们 知道 大 多 
数 UDP 服 务 器 把 ineta 配 置 文本 行 中 的 wait-flag 字 段 指 定 为 wvait。 我 们 在 图 13-10 之 后 的 叙述 中 
说 过 ， 该 值 导致 inetd 停 止 在 相应 套 接 字 上 选择 可 访问 条 件 ， 直 到 相应 子 进程 终止 为 止 ， 从 而 
允许 该 子 进程 读 入 到 达 该 套 接 字 的 数据 报 。 图 22-20 展 示 了 本 情形 涉及 的 步骤 。 

自 成 ineta 子 进程 的 TFTP 服 务 器 调用 recvfrom 读 入 客户 请 求 ， 然 后 forx 一 个 自己 的 子 进 
程 ， 并 由 该 子 进程 处 理 该 客户 请 求 。TFTP 服 务 器 随后 调用 exit， 以 便 给 ineta 发 送 sIGcHLD 信 
号 ， 告 知 inetd 重 新 在 绑 定 UDP 端口 69 的 套 接 字 上 select 可 访问 条 件 。 
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创建 套 接 字 ，bina SAT IARI (69), 
recvfzom， 阻 塞 至 客户 请 求 到 达 。 
fork， 接 着 下 一 次 recvfrom…… 


创建 新 的 套 接 字 ，bina 临时 端 山 
(2134 )， 处 理 客户 请 求 ， 在 新 套 
接 字 上 与 客户 交换 其 余数 据 报 





图 22-19 ”独立 运行 的 UDP 并 发 服务 器 所 涉及 步骤 


inetd 


创建 套 接 字 ，bina 众所周知 端口 (69 )。 
当 TFTP 客户 请 求 到 达 时 ，forx 一 个 子 进 
程 并 关 掉 UDP 端口 69 套 接 字 的 选择 能 力 


recvfrom 客户 数据 报 ，fork 一 个 
子 进程 ， 然 后 exit 


创建 新 的 套 接 字 ，bind 临时 端口 (2134 ) 
处 理 客户 请 求 ， 在 新 套 接 字 上 与 客户 交换 
其 余数 据 报 





图 22-20 由 inetdq 激 发 的 UDP 并 发 服务 器 所 涉及 步骤 


—— E EE TE 





IPv6 人 允许 应 用 进程 为 每 个 外 出 数据 报 指定 最 多 5 条 信息 : 
(1) 源 IPv6 地 址 ; 

(2) 外 出 接口 索引 ; 

(3) 外 出 跳 限 ; 

(4) 下 一 跳 地 址 ; 
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(5) 外 出 流通 类 别 。 

这 些 信息 会 作为 辅助 数据 使 用 sendmsg 发 送 。 它 们 还 有 对 应 的 套 接 字 粘 附 选项 ， 用 于 对 所 
发 送 的 每 个 分 组 隐 式 指定 这 些 信息 (27.7 节 )。IPv6 还 允许 为 每 个 接收 分 组 返回 4 条 类 似 的 信息 ， 
它们 同样 作为 辅助 数据 由 recvmsg 返 回 : 

(1) 目的 IPv6 地 址 ; 






(2) 到 达 接口 索引 ; 
(3) 到 达 跳 限 ; 
(4) 到 达 流通 类 别 。 
图 22-21 总 结 了 我 们 稍 后 讨论 的 这 些 辅助 数据 的 内 容 。 
ensghár() ensghár() 
[-cmeg len |32 [-emeg len — |16 
IPPROTO IPV6 IPPROTO IPV6 






cmsg type  |IPV6 PKTINFO IPV6_HOPLIMIT 







IPv6 地 址 
地 址 in6 pktinfo() 
接口 索引 
cmsghdr{} 
B 40 16 
IPPROTO IPV6 IPPROTO_IPV6 
cmsg_type IPV6_NEXTHOP IPV6_TCLASS 
流通 类 别 


套 接 字 地 址 结构 





图 22-21 ”IPv6 分 组 信息 的 辅助 数据 


in6_pktinfo 结 构 对 于 外 出 数据 报 含有 源 IPv6 地 址 和 外 出 接口 索引 ， 对 于 接收 数据 报 含有 
目的 IPv6 地 址 和 到 达 接 口 索 引 。 


struct in6_pktinfo ( 

struct in6 addr ipié_addr; /* src/dst IPv6 address */ 

int ipi6 ifindex;  /* send/recv interface index */ 
3 
该 结构 定义 在 <netinet/in.h> 头 文件 中 ,包含 本 辅助 数据 的 cmsghdr 结 构 中 , cmsg_level 
成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 是 IPV6_PKTINFO， 数 据 的 第 一 个 字 节 将 是 
in6_pktinfo 结 构 的 第 一 个 字 节 。 在 图 22-21 的 例子 中 ， 我 们 假设 cmsghdar 结 构 和 数据 之 间 没 有 
填充 字 节 ， 并 且 一 个 整数 的 大 小 为 4 个 字 节 。 

这 些 信息 有 两 个 指定 途径 ， 如 果 针 对 单个 数据 报 ， 那 就 作为 辅助 数据 指定 为 调用 sendmsg 

的 控制 信息 ; 如 果 针 对 通过 某 个 套 接 字 发 送 的 所 有 数据 报 ， 那 就 作为 一 个 jn6_pktinfo 结 构 的 
选项 值 设置 TPV6_PKTINFO 套 接 字 选 项 。 这 些 信 息 由 recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进 
程 已 经 开启 TIPV6_RECVPKTINFO 套 接 字 选项 。 
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22.8.1 外 出 和 到 达 接 口 


正如 18.6 节 所 述 ，IPv6 节 点 的 接口 由 正 值 整数 标识 。 任 何 接口 都 不 会 被 赋予 0 值 索 引 。 指 定 
外 出 接口 时 ， 如 果 ipi6_ifindaex 成 员 值 为 0， 那 就 由 内 核 选择 外 出 接口 。 如 果 应 用 进程 为 某 个 
多 播 数据 报 指定 了 外 出 接口 ， 那 么 单 就 这 个 数据 报 而 言 ， 由 辅助 数据 指定 的 接口 将 落 写 由 
IPV6_MULTICAST_IF 套 接 字 选 项 指定 的 任意 接口 。 


22.8.2 ” 源 和 目的 IPv6 地 址 


源 IPv6 地 址 通常 通过 调用 bina 指 定 。 不 过 连同 数据 一 起 指定 源 地 址 可 能 并 不 需要 多 少 开 
销 。 后 者 还 允许 服务 器 确保 所 发 送 应 答 的 源 地 址 等 于 相应 客户 请 求 的 目的 地 址 ， 这 是 一 个 某 些 
客户 需要 且 IPv4 又 难以 提供 的 特性 〈 习 题 22.4)。 

当 作 为 辅助 数据 指定 源 IPv6 地 址 时 ， 如 果 in6_pkrinfo 结 构 的 ipi6_addr 成 员 是 
IN6ADDR_ANY_INIT, BLA: (a) 如 果 该 套 接 字 上 已 经 绑 定 某 个 地 址 ， 那 就 把 它 用 作 源 地 址 ; 或 
者 (eO 如 果 该 套 接 字 上 未 绑 定 任何 地 址 ， 那 就 由 内 核 选择 源 地 址 。 否 则 ， 如 果 ipi6_adar 成 员 
不 是 这 个 非 确定 地 址 ， 不 过 该 套 接 字 上 已 经 绑 定 某 个 源 地 址 ， 那 么 单 就 本 次 输出 操作 而 言 ， 
ipi6_addqr 值 将 覆 写 已 经 绑 定 的 源 地 址 。 内 核 将 验证 所 请 求 的 源 地 址 确实 是 赋予 本 节点 的 某 个 
单 播 地 址 。 

当 in6_pktinfo 结 构 由 recvmsg 作 为 辅助 数据 返回 时 ， 其 ipi6_adar 成 员 含 有 取 自 所 接收 
分 组 的 目的 IPv6 地 址 。 这 一 点 在 概念 上 类 似 IPv4 的 IP_RECVDSTADDR 套 接 字 选项 。 


22.8.3 ”指定 和 接收 跳 限 


对 于 单 播 数 据 报 ， 外 出 跳 限 通常 使 用 IPV6_UNICAST_HOPS 套 接 字 选项 指定 (7.8 节 ); 对 于 
多 播 数 据 报 ， 外 出 跳 限 通常 使 用 ITPV6_MULTICasT_HOPS 套 接 字 选 项 指定 (21.6 节 )。 不 论 目 的 地 
为 单 播 地 址 还 是 多 播 地 址 ， 作 为 辅助 数据 指定 跳 限 却 允 许 我 们 单 就 某 次 输出 操作 覆 写 内 核 的 默 
认 值 或 早先 指定 的 普 适 值 。 对 于 诸如 traceroute 之 类 的 程序 以 及 需 验证 接收 跳 限 为 235〈 表 示 
分 组 未 被 转发 过 ) 的 一 类 IPv6 应 用 程序 来 说 ， 返 回 接收 跳 限 是 有 用 的 。 

接收 跳 限 由 recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进程 已 经 开启 TIPV6_RECVHOPLIMIT 套 
接 字 选项 ,包含 本 辅助 数据 的 cmsghdr 结 构 中 , cmsg_level 成 员 将 是 IPPROTO_IPV6, cmsg_type 
成 员 将 是 IPV6_HOPLIMIT, 数据 的 第 一 个 字 节 将 是 4 字 节 整数 跳 限 的 第 一 个 字 节 ,我们 在 图 22-21 
中 展示 了 该 结构 。 需 留意 的 是 ， 作 为 辅助 数据 返回 的 值 是 来 自 所 接收 数据 报 的 真实 值 ， 而 由 
getsockopt 返 回 的 ITPV6_UNITCAST_HoPS 套 接 字 选项 值 是 内 核 将 用 于 相应 套 接 字 上 所 有 外 出 数 
据 报 中 的 默认 值 。 

要 控制 给 定 分 组 的 外 出 跳 限 ， 只 要 把 控制 信息 指定 为 sendmsg 的 辅助 数据 。 跳 限 的 正常 值 
在 0~255 之 间 (〈 含 )， 若 为 -1 则 告知 内 核 使 用 默认 值 。 


跳 限 没有 包含 在 in6_pkcinfo 结 构 中 的 原因 如 下 : 一 些 UDP 服务 器 希望 以 这 样 的 方式 来 
响应 客户 请 求 , 即 从 相应 请 求 的 接收 接口 发 送 应 答 , 而 且 所 用 IPv6 源 地 址 就 是 相应 请 求 的 IPv6 
目的 地 址 。 为 了 做 到 这 一 点 ， 应 用 进程 可 以 只 开启 ITPV6_RECVPKTINEO 套 接 字 选 项 ， 然 后 把 
来 自 recvmsg 的 接收 控制 信息 用 作 sendmsg 的 外 出 控制 信息 。 应 用 进程 根本 不 必 检 查 或 修改 
in6_pktinfo 结 构 。 然 而 要 是 跳 限 包含 在 该 结构 中 ， 那 么 应 用 进程 将 不 得 不 分 析 接 收 控制 信 
息 并 修改 跳 限 成 员 ， 因 为 接收 跳 限 并 不 是 外 出 分 组 期 望 的 跳 限 值 。 
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22.8.4 ”指定 下 一 跳 地 址 


IPV6_NEXTHOP 辅 助 数据 对 象 将 数据 报 的 下 一 跳 指定 为 一 个 套 接 字 地 址 结构 .在 包含 本 辅助 
数据 的 cmsghdr 结 构 中 ，cmsg_leve1l 成 员 是 IPPROTO_IPV6，cmsg_type 成 员 是 IPV6_NEXTHOP， 
数据 的 第 一 字 节 是 套 接 字 地 址 结构 的 第 一 个 字 节 。 

我 们 在 图 22-21 中 展示 了 本 辅助 数据 对 象 的 一 个 例子 , 其 中 假设 套 接 字 地 址 结构 是 28 字 节 的 
sockaddr_in6 结 构 。 本 例 中 由 下 一 跳 地 址 标识 的 节点 必须 是 发 送 主机 的 一 个 邻居 。 如 果 该 地 址 
等 于 数据 报 的 目的 IPv6 地 址 ， 那 么 相当 于 已 有 的 so_poNTROUTE 套 接 字 选 项 。 下 一 跳 地 址 也 可 以 
针对 通过 某 个 套 接 字 发 送 的 所 有 数据 报 设置 , 途径 是 以 一 个 sockaddr_in6 结 构 作为 选项 值 设置 
IPV6_NEXTHOP 套 接 字 选项 。 设 置 本 选项 需要 超级 用 户 权 限 。 


22.8.5 “指定 和 接收 流通 类 别 


IPV6_TCLASS 辅 助 数据 对 象 指定 数据 报 的 流通 类 别 。 在 包含 本 辅助 数据 的 cmsghar 结 构 中 ， 
cmsg_level 成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 是 IPV6_TCLASS， 数 据 的 第 一 个 字 节 
将 是 4 字 节 整数 流通 类 别 的 第 一 个 字 节 。 我 们 在 图 22-21 中 展示 了 该 结构 。 正 如 A.3 节 所 述 ， 流 通 
类 别 由 DSCP 和 有 CN 两 个 字段 构成 。 它 们 必须 一 起 设置 。 如 果 内 核 有 必要 控制 这 些 值 ， 它 就 屏蔽 
或 忽略 用 户 指定 的 值 〔〈 璧 如 说 如 果 内 核实 现 了 ECN， 它 可 能 就 不 顾 应 用 进程 通过 IFV6_TCLASsS 
套 接 字 选项 设置 的 2 位 ECN 值 而 自行 设置 ECN)。 流 通 类 别 的 正常 值 在 0~255 之 间 〈 含 )， 若 为 -1 
则 告知 内 核 使 用 默认 值 。 

如 果 为 某 个 给 定 分 组 指定 流通 类 别 ， 那 么 只 需 包含 辅助 数据 ， 如果 为 通过 某 个 套 接 字 的 所 有 
分 组 指定 流通 类 别 ， 那 就 以 一 个 整数 选项 值 设置 TPV6_TcLass 套 接 字 选 项 ， 如 27.7 节 所 述 。 接 收 
流通 类 别 由 recvmsg 作 为 辅助 数据 返回 的 前 提 是 应 用 进程 已 开启 ITPV6_RECVTCLASS 套 接 字 选 项 。 
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IPv6 为 应 用 程序 提供 了 若干 路 径 MTU 发 现 控制 手段 (2.11 节 )。 默 认 设置 对 于 绝 大 多 数 应 用 
程序 是 合适 的 ， 不 过 特殊 目的 程序 可 能 想 要 更 改 路 径 MTU 发 现行 为 。IPv6 为 此 提供 了 4 个 套 接 
字 选 项 。 


22.9.1 以 最 小 MTU 发 送 


执行 路 径 MTU 发 现时 ，IP 数 据 报 通常 按照 外 出 接口 的 MTU 或 路 径 MTU 二 者 中 较 小 者 进行 
分 片 。IPv6 定 义 了 值 为 1280 字 节 的 最 小 MTU， 所 有 链 路 都 必须 支持 。 按 照 这 个 最 小 MTU 进 行 分 
片 可 能 丧失 一 些 发 送 较 大 分 组 的 机 会 ， 不 过 避免 了 路 径 MTU 发 现 的 缺点 (MTU 发 现 期 间 的 分 组 
丢失 和 数据 发 送 延 迟 )。 

有 两 种 类 型 的 应 用 程序 可 能 想 要 使 用 最 小 MTU 发 送 分 组 : 一 种 使 用 多 播 ， 另 一 种 与 多 个 目 
的 地 简短 地 交互 〈 璧 如 DNS)。 与 接收 并 处 理 大 量 ICMP“packet too big” 消 息 所 付 代 价 相 比 ， 
为 多 播 会 话 发 现 MTU 显 得 并 不 重要 。 诸 如 DNS 之 类 应 用 程序 通常 不 与 单个 服务 器 频繁 地 通信 ， 
使 得 冒 路 径 MTU 发 现 的 分 组 丢失 之 险 难 见 所 值 。 

使 用 最 小 MTU 由 IPV6_USE_MITN_MTU 套 接 字 选 项 控制 。 该 选项 有 3 个 已 定义 的 值 : 默认 值 -1 
表示 对 多 播 目 的 地 使 用 最 小 MTU， 对 单 播 目 的 地 执行 路 径 MTU 发 现 ; 0 表示 对 所 有 上 且 的 地 都 执 

行路 径 MTU 发 现 ; 1 表示 对 所 有 目的 地 都 使 用 最 小 MTU。 
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IPV6_USE_MIN_MTU 选 项 值 也 可 以 作为 辅助 数据 发 送 。 包 含 本 辅助 数据 的 cmsghar 结 构 中 ， 
cmsg_level 成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 是 TPV6_USE_MIN_MTU， 数据 的 第 一 个 
字 节 将 是 4 字 节 整数 本 选项 值 的 第 一 个 字 节 。 


22.9.2 ”接收 路 径 MTU 变动 指示 


应 用 进程 可 以 开启 IPV6_RECVPATHMTU 套 接 字 选项 以 接收 路 径 MTU 变 动 通知 。 本 标志 值 使 
得 任何 时 候 路 径 MTU 发 生变 动 时 作为 辅助 数据 由 recvmsg 返 回 变动 后 的 路 径 MTU。 由 recvmsg 
这 样 返 回 的 数据 报 长 度 可 能 为 0， 不 过 含有 指示 路 径 MTU 的 辅助 数据 。 包 含 本 辅助 数据 的 
cmsghdr 结 构 中 ，cmsg_level 成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 是 IPV6_PATHMTU， 
数据 的 第 一 个 字 节 将 是 一 个 ijp6_mtuinfo 结 构 的 第 一 个 字 节 。 该 结构 含有 路 径 MTU 发 生变 动 的 
目的 地 和 以 字 节 为 单位 新 的 路 径 MTU 值 ， 定 义 在 <netinety/in.h> 头 文件 中 。 


struct ip6 mtuinfo { 

struct sockaddr in6 ip6m_addr; /* destination address */ 

uint32 t ip6m mtu; /* path MTU in host byte order */ 
} " 


22.9.3 ”确定 当前 路 径 MTU 


如 果 一 个 应 用 进程 并 没有 使 用 IPV6_RECVPATHMTU 套 接 字 选项 一 直 在 跟踪 路 径 MTU 的 变 
动 ， 那 么 可 以 使 用 ITPV6_PaTHMTU 套 接 字 选 项 确定 某 个 已 连接 套 接 字 的 当前 路 径 MTU。 这 是 一 
个 只 能 获取 的 选项 ， 作 为 选项 值 的 ip6_mtuinfo 结 构 ( 见 上 ) 含有 当前 路 径 MTU。 如 果 未 能 确 
定 路 径 MTU， 那 就 返回 外 出 接口 的 MTU。 返 回 的 地 址 值 没有 定义 。 


22.9.4 ”避免 分 片 


默认 情况 下 IPv6 协 议 栈 将 按照 路 径 MTU 对 外 出 IP 数 据 报 执 行 分 片 。 诸 如 traceroute 之 类 程 
序 可 能 不 希望 有 这 种 自动 分 片 特性 ， 而 是 自行 发 现 路 径 MTU。IPV6_DONTFRAG 套 接 字 选 项 用 于 
关闭 自动 分 片 特性 ;其 值 为 0 (默认 值 ) 表示 允许 自动 分 片 ， 为 1 则 关闭 自动 分 片 。 

关闭 自动 分 片 后 ， 提 供需 要 分 片 的 分 组 的 send 调 用 可 以 返回 PsGsIzE 错 误 ; 不 过 实现 并 非 
必须 提供 这 种 错误 指示 。 确 定 某 个 分 组 是 否 需 要 分 片 的 唯一 确实 有 效 的 方法 是 使 用 
IPV6_RECVPATHMTU 套 接 字 选 项 。 

IPV6_DONTFRAG 选 项 值 也 可 以 作为 辅助 数据 发 送 。 包 含 本 辅助 数据 的 cmsghar 结 构 中 ， 
cmsg_level 成 员 将 是 IPPROTO_IPV6，cmsg_type 成 员 将 是 IPV6_DONTFRAG， 数 据 的 第 一 个 字 
节 将 是 4 字 节 整数 本 选项 值 的 第 一 个 字 节 。 

22.10 h 

有 些 应 用 程序 需要 知道 某 个 UDP 数据 报 的 目的 IPv4 地 址 和 接收 接口 。 开 启 IP_RECVDSTADDR 
和 IP_RECVIF 套 接 字 选 项 可 以 作为 辅助 数据 随 每 个 数据 报 返 回 这 些 信息 。 对 于 IPv6 套 接 字 ， 类 
似 IPv4 的 信息 以 及 接收 跳 限 和 接收 流通 类 别 可 以 通过 开启 IPV6_RECVPKTINFO、 IPV6_RECVHOP- 
LIMIT 或 TPV6_RECVTCLASS 套 接 字 选项 返回 。 

尽管 UDP 无 法 提供 TCP 提 供 的 众多 特性 ， 需 要 使 用 UDP 的 场合 依然 不 少 。 广 播 或 多 播 应 用 
必须 使 用 UDP。 简单 的 请 求 -应 答 情 形 也 可 以 使 用 UDP, 不 过 必须 在 应 用 程序 中 增加 某 种 形式 的 
可 靠 性 。UDP 不 应 该 用 于 海量 数据 的 传送 。 
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通过 使 用 超时 和 重 传 机 制 检测 丢失 分 组 , 我 们 在 22.5 节 增加 了 UDP 回 射 客户 程序 的 可 靠 性 。 

通过 给 每 个 分 组 增加 一 个 时 间 惟 并 追踪 RTT 及 其 平均 偏差 这 2 个 估算 因子 ,我 们 在 动态 地 修改 重 

传 超时 值 。 我 们 还 给 每 个 分 组 增加 一 个 序列 号 以 验证 某 个 给 定 应 答 是 期 望 的 应 答 。 该 客户 程序 

仍然 采用 简单 的 停 等 协议 ， 不 过 这 是 UDP 所 能 支持 的 应 用 程序 类 型 。 

习题 

22.1 在 图 22-18 中 为 什么 有 两 次 printf 调 用 ? 

22.2 dg_sendq_recv (图 22-8 和 图 22-9) 能 否 返 回 0? 

22.3 重新 编写 dg_senda_recv， 改 用 select 及 其 定时 器 取代 alarm、SIGALRM sigsetjmp 和 
siglongjmp. 

224 _ IPv4 服 务 器 如 何 保证 所 发 送 应 答 的 源 地 址 等 于 相应 客户 请 求 的 目的 地 址 〈 类 似 由 ITPV6_PKTINFO 套 
接 字 选 项 提供 的 功能 ) ? 

22.5 图 22-6 中 的 main 函 数 是 IPv4 协 议 相 关 的 ， 把 它 改写 成 协议 无 关 的 版 本 。 要 求 用 户 指 定 一 个 或 两 个 命 
令 行 参数 ， 第 一 个 是 可 选 的 下 地 址 〈 璧 如 0.0.0.0 或 0::0) ， 第 二 个 是 必需 的 端口 号 。 接 着 调用 
udp_client 获取 套 接 字 地 址 结构 的 地 址 族 、 端 口号 和 长 度 。 既 然 udp_client 并 没有 给 
getaddrinfo 指 定 AI_PASSIVE 暗 示人 信息， 如 果 像 建议 的 那样 不 指定 hostname 参 数 就 调用 
udp_client， 将 会 发 生 什 么 ? 

22.6 更改 相关 RTT 函 数 以 输出 每 个 RTT， 然 后 对 跨 因特网 的 标准 echo 服 务 器 运行 图 22-6 所 在 的 客户 程序 。 
修改 dg_send_recv 函 数 以 输出 每 个 收 到 的 序列 号 。 伴 随 RTT 及 其 平均 偏差 这 2 个 估算 因子 绘 出 结果 
RTT 的 动态 变化 。 
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23.1 概述 


我 们 将 在 本 章 较 深入 地 讨论 SCTP， 查 看 SCTP 提 供 的 更 多 特性 和 套 接 字 选 项 。 我 们 将 讨论 
多 个 论题 ， 包 括 故 障 检测 的 控制 、 无 序 的 数据 以 及 通知 。 本 章 通 章 提供 了 多 个 代码 例子 ， 以 展 
示 如 何 使 用 SCTP 的 某 些 高 级 特性 。 

SCTP 是 一 个 面向 消息 的 协议 , 递送 给 用 户 的 是 部 分 的 或 完整 的 消息 。 部 分 消息 的 递送 前 提 
是 应 用 进程 选择 向 对 端 发 送 大 消息 〈 璧 如 大 于 套 接 字 缓冲 区 一 半 大 小 )。 部 分 消息 被 递送 给 应 用 
进程 之 后 ， 多 个 部 分 消息 组 合成 单个 完整 消息 并 不 由 SCTP 负 责 。 在 应 用 进程 看 来 ， 一 个 消息 既 
可 以 由 单个 输入 操作 接收 ， 也 可 以 由 若干 个 相继 的 输入 操作 接收 。 我 们 将 通过 一 个 作为 例子 的 
函数 说 明 处 理 这 种 部 分 递送 机 制 的 一 个 方法 。 

SCTP 服 务 器 程序 既 可 以 迭代 运行 , 也 可 以 并 发 运行 , 这 取决 于 应 用 程序 开发 人 员 选 取 的 套 
接 字 式 样 。SCTP 还 提供 了 从 一 到 多 式 套 接 字 抽 取 某 个 关联 并 使 其 成 为 一 到 一 式 套 接 字 的 方法 。 
本 方法 允许 构造 既 可 迁 代 运行 又 可 并 发 运行 的 服务 器 程序 。 


23.2 ”自动 关闭 的 一 到 多 式 服务 器 程序 


回顾 我 们 在 第 10 章 中 编写 的 服务 器 程序 ， 它 不 保持 任何 关联 状态 ， 因 为 它 依赖 客户 程 
序 关 闭关 联 。 依赖 客户 关闭 关联 存在 这 样 的 弱点 : 要 是 客户 打开 一 个 关联 后 从 不 发 送 任何 数 
H, 将 发 生 什么 ? 服务 器 不 得 不 将 资源 分 配给 从 不 使 用 这 些 资 源 的 客户 。 懒惰 的 客户 会 无 意 
中 造成 对 于 SCTP 实 现 的 拒绝 服务 攻击 。 为 了 避免 这 个 问题 ，SCTP 增 设 了 自动 关闭 Cautoclosing) 
特性 。 

自动 关闭 允许 SCTP 端 点 指定 某 个 关联 可 以 保持 空闲 的 最 大 秒 钟 数 。 关联 在 任何 方向 上 都 没 
有 用 户 数据 在 传送 时 就 认为 它 是 空闲 的 。 如 果 关 联 的 空闲 时 间 超 过 它 的 最 大 允许 时 间 ， 该 关联 
就 由 SCTP 实 现 自动 关闭 。 

使 用 自动 关闭 套 接 字 选 项 应 该 仔细 选择 其 值 。 若 服务 器 选择 太 小 的 值 ， 它 可 能 会 发 现 自己 
是 在 已 经 关闭 的 关联 上 发 送 数据 。 重 新 打开 关联 以 便 向 客户 发 送 回 数据 需要 额外 开销 ， 更 何况 
客户 不 大 可 能 已 经 调用 过 1isten 以 允许 外 来 关联 。 图 23-1 是 第 10 章 中 服务 器 程序 的 修订 版 本 ， 
其 中 插入 必要 的 调用 以 避免 出 现 长 期 空闲 的 关联 。 正 如 7.10 节 所 述 ， 自 动 关闭 特性 默认 是 禁止 
的 ， 其 开启 必须 现 式 使 用 scTP_AUTOCLOSE 套 接 字 选项 。 
设置 自动 关闭 选项 
17-19 选择 120 秒 钟 为 空闲 关联 自动 关闭 时 间 ， 并 将 该 值 置 于 变量 close_time 中 。 接 着 调用 

setsockopt 套 接 字 选 项 配置 该 自动 关闭 时 间 。 其 余 代码 保持 不 变 。 
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现在 SCTP 将 自动 关闭 空闲 时 间 超 过 两 分 钟 的 关联 。 通过 这 种 自动 强制 关闭 关联 的 方 
法 ， 我 们 减少 了 懒惰 客户 的 资源 消耗 。 























-一 — sctp/sctpserv04.c 
14 if (argc == 2) 
15 stream increment = atoi(argv[1]); 
16 Sock fd = Socket(AF INET, SOCK SEQPACKET, IPPROTO SCTDP); 
17 close time - 120; 
18 Setsockopt (sock fd, IPPROTO SCTP, SCTP AUTOCLOSE, 
19 &close time, sizeof(close time)); 
20 bzero(&servaddr, sizeof(servaddr)); 
21 servaddr.sin family = AF, INET; 
22 servaddr.sin addr.s addr = htonl(INADDR ANY); 
23 servaddr.sin port = Mons (SERY PORT) I 
- sctp/sctpserv04.c 
图 23-1 开启 自动 关闭 特性 的 服务 器 程序 
23.3 ”部 分 递送 





当 应 用 进程 要 求 SCTP 传 输 过 大 的 消息 时 ，SCTP 可 能 采取 部 分 递送 措施 ， 这 里 “过 大 ” 意 
味 着 SCTP 栈 认为 没有 足够 的 资源 专用 于 这 样 的 消息 。 接收 端 SCTP 实 现 开 启 本 API 需 要 考虑 以 下 
几 点 。 

e 所 接收 消息 的 缓冲 区 空间 耗 用 量 必 须 满足 或 超过 某 个 门 柳 。 

e SCTP 栈 最 多 只 能 从 该 消息 开始 处 顺序 递送 到 首 个 缺失 断 片 。 

e 一 旦 激发 ， 其 他 消息 必须 等 到 当前 消息 已 被 完整 地 接收 并 递送 给 接收 端 应 用 进程 之 后 才 

能 被 递送 。 也 就 是 说 过 大 的 消息 会 阻塞 通常 情况 下 可 以 递送 的 所 有 其 他 消息 的 递送 ， 包 
括 其 他 流 中 的 消息 。 
SCTP 的 KAME 实 现 使 用 的 门槛 是 套 接 字 接 收 缓冲 区 的 一 半 大 小 。 编 写本 书 时 这 个 SCTP 栈 
的 默认 接收 缓冲 区 大 小 为 131072 字 节 。 因 此 要 是 不 修改 so_RcVBUF 套 接 字 选 项 值 ， 单 个 消息 必 
须 超过 65536 字 节 才 会 激 起 部 分 递送 API。 为 了 把 10.2 节 给 出 的 服务 器 程序 改 为 使 用 部 分 递送 ， 
我 们 先 编写 一 个 包 训 sctp_recvmsg 函 数 调 用 的 实用 函数 ， 再 创建 使 用 这 个 新 函数 的 改进 服务 
器 。 图 23-2 给 出 了 处 理 部 分 递送 API 的 sctp_recvmsg 外 包 函 数 。 
准备 缓冲 区 
12-15 “如果 由 全 局 静态 指针 指向 的 接收 缓冲 区 尚未 分 配 ， 那 就 动态 分 配 其 空间 并 设置 与 它 关 
联 的 状态 。 

读 入 消息 

16-18 调用 sctp_recvmsg 读 入 消息 ， 它 可 能 是 某 个 消息 的 第 一 个 断 片 。 

处 理 读 入 错误 

19-22 ”如 果 sctp_recvmsg 返 回 错误 或 EOF， 那 就 直接 返回 到 调用 者 。 

本 消息 还 有 其 余 断 片 

23-24 ”如果 消息 标志 表明 sctp_recvmsg 收 取 的 不 是 一 个 完整 的 消息 ， 那 就 继续 收集 其 余 断 
片 。 函 数 首 先 要 计算 接收 缓冲 区 中 剩余 的 空间 。 

检查 是 否 需 要 增长 缓冲 区 

25-34 ” 当 接 收 缓冲 区 中 剩余 的 空间 小 于 某 个 最 小 量 时 ， 调 用 realloc 函 数 增长 缓冲 区 的 大 小 。 
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新 的 缓冲 区 大 小 是 当前 大 小 加 上 一 个 增长 量 。 如 果 realloc 调 用 失败 , 那 就 显示 一 个 出 
错 消 息 并 退出 。 


sctp/sctp pdapircv.c 
1 #include "unp.h" 


2 static uint8 t *sctp pdapi  readbuf-NULL; 
3 static int sctp pdapi rdbuf sz-0; 


4 uint8 t * 
5 pdapi recvmsg(int sock fd, 
6 int *rdlen, 
7 SA *from, 
8 int *from len, struct sctp sndrcvinfo *sri, int *msg flags) 
3 | 
10 int rdsz,left,at, in buf; 
11 int frmlen-0; 
12 if (sctp pdapi readbuf -- NULL) ( 
13 sctp pdapi readbuf - (uint8 t *)Malloc(SCTP PDAPI, INCR, SZ) ; 
14 sctp pdapi rdbuf sz - SCTP. PDAPI, INCR, SZ; 
15 ) 
16 at in buf - 
17 Sctp recvmsg(sock fd, sctp pdapi readbuf, sctp pdapi rdbuf sz, from, 
18 from len, sri, msg. flags); 
19 if(at in buf < i){ 
20 *rdlen - at, in buf; 
21 return (NULL); 
22 } 
23 while((*msg_flags & MSG EOR) == 0) { 
24 left = sctp_pdapi_rdbuf_sz - at_in_buf; 
25 if(left < SCTP_PDAPI_NEED_MORE_THRESHOLD) { 
26 sctp_pdapi_readbuf = 
27 realloc(sctp_pdapi_readbuf, 
28 sctp_pdapi_rdbuf_sz + SCTP_PDAPI_INCR_SZ); 
29 if (sctp_pdapi_readbuf == NULL) { 
30 err quit("sctp pdapi ran out of memory"); 
31 ) 
32 Sctp pdapi, rdbuf sz «- SCTP PDAPI, INCR SZ; 
33 left - sctp pdapi rdbuf sz - at in buf; 
34 ) 
35 rdsz = Sctp recvmsg(sock fd, &sctp pdapi readbuf[at, in buf], 
36 left, NULL, &frmlen, NULL, msg flags); 
37 at in buf += rdsz; 
38 ) 
39 *rdlen - at, in buf; 
40 return(sctp pdapi readbuf); 
41 ) 
sctp/sctp pdapircv.c 
图 23-2 ”处 理 部 分 递送 API 
接收 其 余 断 片 
35-36 调用 sctp_recvmsg 读 入 本 消息 其 余 断 片 。 
前 向 移动 索引 


37-38 ”增加 缓冲 区 索引 ， 循 环 回 去 测试 是 否 已 经 读 入 本 消息 所 有 断 片 。 
循环 结束 


39-40 ”循环 结束 后 把 读 入 的 字 节 数 复制 到 由 调用 者 提供 的 指针 所 指 的 整数 变量 中 ， 再 返回 指 
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向 所 分 配 缓冲 区 的 一 个 指针 。 
图 23-3 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 。 


26 for (5; : 0) ( 

27 len - sizeof(struct sockaddr in); 

28 bzero(&sri,sizeof(sri)); 

29 readbuf - pdapi recvmsg(sock fd, &rd sz, 

30 (SA *)&cliaddr, &len, &sri,&msg flags); 
31 if(readbuf -- NULL) 

32 continue; 


e — — — sctp/sctpserv05.c 


sctp/sctpserv05.c 





图 23-3 ”使 用 部 分 递送 API 的 服务 器 程序 

读 入 消息 

29-30 ”服务 器 调用 新 的 部 分 递送 实用 函数 。 服务 器 会 在 清理 掉 可 能 占据 sri 变 量 的 旧 数 据 后 调 
用 该 函数 。 

验证 读 入 非 空 

31-32 ”验证 刚才 的 读 入 是 否 非 空 。 若 为 空 〈 读 入 EOF 或 发 生 错误 ) 则 继续 。 


J—€———— M: Th I I OE pt ——————— 


我 们 已 在 9.14 节 讨论 过 ， 应 用 进程 可 以 预订 7 个 通知 。 到 目前 为 止 ， 我 们 的 SCTP 程 序 都 忽 
略 除 新 数据 的 收取 以 外 所 有 可 能 发 生 的 事件 。 本 节 的 例子 给 出 如 何 接收 并 解释 SCTP 通 知事 件 的 
概貌 。 图 23-4 给 出 的 函数 用 于 显示 来 自 85CTP 的 任何 道 知 。 我 们 还 把 10.2 节 给 出 的 服务 器 程序 改 
为 预订 所 有 事件 ， 当 收 到 一 个 通知 时 调用 这 个 新 函数 。 注 意 ， 我 们 的 服务 器 程序 并 没有 把 通知 
用 于 任何 特定 的 目的 。 








sctp/sctp displayevents.c 


1 #include "unp.h" 

2 void 

3 print notification(char *notify buf) 
4 í 

5 union sctp_notification *snp; 

6 struct sctp assoc change *sac; 

7 struct sctp paddr change *spc; 

8 struct sctp remote error *sre; 

9 Struct sctp send failed *ssf; 

10 struct sctp shutdown event *sse; 
11 struct sctp adaption event *ae; 
12 struct sctp pdapi event *pdapi; 
13 const char *str; 

14 snp = (union sctp notification *)notify buf; 
is switch(snp->sn_header.sn_type) { 
16 case SCTP_ASSOC_CHANGE: 

17 sac = &snp->sn_assoc_change; 
18 Switch(sac-»sac, state) { 

19 case SCTP COMM UP: 

20 Str - "COMMUNICATION UP"; 
21 break; 

22 case SCTP. COMM LOST: 


图 23-4 通知 显示 实用 函数 


23.4 通知 


Str - "COMMUNICATION LOST"; 
break; 
case SCTP_RESTART: 
str = "RESTART"; 
break; 
case SCTP_SHUTDOWN_COMP: 
str = “SHUTDOWN COMPLETE"; 
break; 
case SCTP_CANT_STR_ASSOC: 
str = "CAN'T START ASSOC"; 


break; 
default: 
str = "UNKNOWN"; 
break; 
} /* end switch(sac->sac_state) */ 


printf("SCTP ASSOC CHANGE: %s, assoc=0x%x\n", str, 
(uint32 t)sac-»sac assoc id); 
break; 
case SCTP PEER ADDR CHANGE: 
Spc - &snp-»sn paddr change; 
switch(spc-»spc state) ( 
case SCTP ADDR, AVAILABLE: 
Str - "ADDRESS AVAILABLE"; 
break; 
case SCTP ADDR UNREACHABLE: 
str - "ADDRESS UNREACHABLE"; 
break; 
case SCTP ADDR, REMOVED: 
str = "ADDRESS REMOVED"; 
break; 
case SCTP ADDR ADDED: 
str - "ADDRESS ADDED"; 
break; 
case SCTP ADDR MADE PRIM: 
str - "ADDRESS MADE PRIMARY"; 


break; 
defauit: 
Str - "UNKNOWN"; 
break; 
} /* end switch(spc->spc_state) */ 


printf("SCTP PEER ADDR CHANGE: %s, addr=%s, assoc-Ox$x Wn", str, 
Sock ntop((SA *)&spc-»spc aaddr, sizeof(spc-»spc aaddr)), 
(uint32, t)spc-»spc. assoc, id); 
break; 
case SCTP REMOTE ERROR: 
sre - &snp-»sn remote error; 
printf("SCTP REMOTE ERROR: assoc=0x%x error=%d\n", 
(uint32 t)sre-»sre assoc id, sre-»sre error); 
break; 
case SCTP SEND FAILED: 
ssf - &snp-»sn send failed; 
printf("SCTP SEND FAILED: assoc=0x%x error=%d\n", 
(uint32 t)ssf-»ssf assoc id, ssf-»ssf error); 
break; 
case SCTP ADAPTION INDICATION: 
ae = &snp-»sn adaption event; 
printf("SCTP ADAPTION INDICATION: Ox%x\n", 
(u int)ae-»sai adaption ind); 





图 23-4 GE) 
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81 break; 
82 case SCTP PARTIAL DELIVERY EVENT: 
83 pdapi = &snp-»sn pdapi event; 
84 if(pdapi-»pdapi indication -- SCTP PARTIAL DELIVERY, ABORTED) 
85 printf("SCTP PARTIAL DELIEVERY ABORTEDMn"); 
86 else 
87 printf ("Unknown SCTP PARTIAL DELIVERY EVENT Ox%x\n", 
88 pdapi-»pdapi indication); 
89 break; 
90 case SCTP, SHUTDOWN, EVENT: 
91 sse = &snp-»sn shutdown, event; 
92 printf("SCTP SHUTDOWN EVENT: assoc=0x%x\n", 
93 (uint32 t)sse-»sse assoc id); 
94 break; 
95 default: 
96 printf("Unknown notification event type=0x%x\n", 
97 snp-»sn header.sn type); 
98 ) 
99 ) 
sctp/sctp displayevents.c 
图 23-4 (HD 
类 型 强制 转换 并 进行 跳 转 


14-15 ”把 存放 通知 的 输入 缓冲 区 类 型 强制 转换 成 整体 性 的 联合 类 型 。 按 照 该 联合 类 型 中 的 通 
用 sn_header 结 构 的 sn_type 成 员 的 可 能 取 值 进行 跳 转 。 

处 理 关联 变动 

16-40 ”如 果 函 数 在 缓冲 区 中 发 现 “ 关 联 改变 ”通知 ， 则 显示 已 发 生 的 关联 变动 的 类 型 。 

处 理 对 端 地 址 变动 

41-66 ”如果 是 发 现 对 端 地 址 通知 ， 则 显示 经 译 码 的 地 址 事件 和 变动 后 的 地 址 。 

处 理 远 程 错误 

67-71 ， 如果 函 数 发 现 远程 错 误 ， 则 显示 该 错误 和 发 生 它 的 关联 的 ID 。 本 函数 不 试图 译 解 并 显 
示 由 远程 对 端 所 报告 的 真正 错误 。 该 信息 可 从 sctp_remote_error 结 构 的 sre_data 成 
员 获 得 。 

处 理发 送 失 败 

72-176 如 果 函 数 解码 出 “发 送 失 败 ” 通 知 ， 它 就 知道 消息 未 能 发 送 到 对 端 。 这 意味 着 : 
Ca) 关联 正在 关闭 之 中 ,马上 就 会 得 到 一 个 关联 通知 (如 果 还 没有 到 达 的 话 ); 或 者 
Cb) 服务 器 在 使 用 部 分 递送 扩展 ， 并 有 一 个 消息 未 成 功 发 送 〈 由 设置 在 传送 上 的 限制 
造成 )。 待 发 送 的 数据 实际 上 存放 在 ssft_aqata 成 员 中 。 

处 理 适 配 层 指 示 符 

77-81 ”如果 函数 解码 出 适 配 层 指示 符 ， 则 显示 在 关联 建立 消息 (INIT 或 INITACK) 中 传递 的 
32 位 值 。 

处 理 部 分 递送 事件 

82-89 如果 有 “部 分 递送 ”通知 到 达 ， 则 显示 通知 的 事件 。 目 前 唯一 的 事件 是 部 分 递送 被 取消 。 

处 理 关 联 终止 事件 

90-94 ”如 果 函 数 解码 出 该 通知 ， 则 表示 对 端 已 经 发 出 一 个 雅致 的 sHUTDOWN 消 息 。 到 关联 终止 
序列 完成 时 ， 通 常会 得 到 一 个 关联 变动 通知 。 

图 23-5 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 。 
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sctp/sctpserv06.c 
21 bzero(&evnts, sizeof(evnts)); 
22 evnts.sctp data io event - 1; 
23 evnts.Sctp association, event = 1; 
24 evnts.sctp address event - 1; 
25 evnts.sctp send failure event - 1; 
26 evnts.sctp peer error event - 1; 
27 evnts.sctp shutdown event - 1; 
28 evnts.sctp partial delivery event - 1; 
29 evnts.sctp adaption layer event - 1; 
30 Setsockopt(sock fd, IPPROTO SCTP, SCTP EVENTS, &evnts, sizeof(evnts)); 
31 Listen(sock fd, LISTENQ); 
32 for (; ; ) ( 
33 len = sizeof(struct sockaddr in); 
34 rd sz = Sctp recvmsg(sock fd, readbuf, sizeof(readbuf), 
35 (SA *)&cliaddr, &len, &sri, &msg flags); 
36 if(msg flags & MSG NOTIFICATION) ( 
37 print notification(readbuf); 
38 continue; 
39 } 
sctp/sctpserv06.c 
图 23-5 ”使 用 通知 的 服务 器 程序 
进行 设置 以 接收 通知 
21-30 ”服务 器 修改 事件 设置 以 接收 所 有 通知 。 
通常 的 接收 代码 
31~35 这 段 服务 器 程序 代码 没有 改动 。 
处 理 通 知 
36-39 服务 器 检查 msg_flags， 如 果 发 现 数据 是 通知 ， 那 就 调用 新 的 实用 函数 print_ 623 
notification 显 示 这 个 通知 ， 然 后 循环 回去 读 入 下 一 个 消息 。 628 


运行 代码 
我 们 按 以 下 方式 启动 客户 并 发 送 一 个 消息 。 


FreeBSD-lap: ./8ctpclient01 10.1.1.5 

[0]Hello 

From str:1 seq:0 (assoc:c99e15a0):[0]Hello 

Control-D 

FreeBSD-lap: 

在 接收 关联 建立 消息 、 用 户 消 息 和 关联 终止 消息 时 ， 我 们 的 服务 器 程序 按 以 下 方式 显示 每 
个 发 生 的 事件 。 

FreeBSD-lap: ./sctpserv06 

SCTP ADAPTION INDICATION: 0x504c5253 

SCTP ASSOC CHANGE: COMMUNICATION UP, assoc=c99e2680h 

SCTP SHUTDOWN EVENT: assoc=c99e2680h 


SCTP ASSOC CHANGE: SHUTDOWN COMPLETE, assoc-c99e2680h 
Control-c 


可 见 ， 服 务 器 声明 了 在 传输 层 发 生 的 事件 。 


E————A—A—»————————— ————————————————H—————— Tt oe 


23.5 无 序 的 数据 








SCTP 通 常 提供 可 靠 的 有 序数 据 传输 服务 ， 不 过 也 提供 可 靠 的 无 序数 据 传 输 服 务 。 指 定 


o 
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MSG_UNORDERED 标 志 发 送 的 消息 没有 顺序 限制 ， 一 到 达 对 端 就 能 被 递送 。 无 序 的 数据 可 以 在 任 
何 SCTP 流 中 发 送 ， 不 用 赋予 流 序列 号 。 图 23-6 给 出 了 为 了 使 用 无 序数 据 服务 向 回 射 服 务 器 发 送 
请 求 而 对 客户 程序 所 做 的 修改 。 


e —— — sctp/sctp, strcli un.c 
18 out, sz - strlen(sendline); 

19 Sctp sendmsg(sock fd, sendline, out sz, 

20 to, tolen, 0, MSG UNORDERED, sri.sinfo stream, 0, 0); 

=e 一 sctp/sctp. strcli un.c 


图 23-6 “发送 无 序数 据 的 sctp_strcli 函 数 








使 用 无 序 服务 发 送 数据 

18-20 ”这 和 104 节 中 的 sctpstr_cli 函 数 几 乎 一 模 一 样 。 唯 一 的 改变 在 第 21 行 :指定 MsG_UNORDERED 
标志 调用 sctp_sendmsg 以 使 用 无 序 服务 发 送 请 求 消息 。 通 常情 况 下 ， 一 个 给 定 SCTP 
流 中 的 所 有 数据 都 标 以 序列 号 以 便 排序 。 该 标志 使 相应 数据 以 无 序 方式 发 送 ， 即 不 标 
以 序列 号 ， 一 到 达 对 端 就 能 被 递送 ， 即 使 同一 个 SCTP 流 上 早先 发 送 的 其 他 无 序数 据 尚 
未 到 达 也 是 这 样 。 


有 些 应 用 程序 可 能 想 要 把 主机 的 全 体 耻 地 址 的 某 个 合适 的 子 集 捆绑 到 单个 套 接 字 。TCP 和 
UDP 传统 上 只 能 捆绑 单个 地 址 ， 而 不 能 捆绑 一 个 地 址 子 集 。bind 系 统 调用 允许 应 用 进程 捆绑 单 
个 地 址 或 通 配 地 址 。 由 SCTP 提 供 的 新 的 sctp_pindx 函 数 调用 允许 应 用 进程 捆绑 不 止 一 个 地 址 。 
注意 ， 所 有 这 些 地 址 必须 使 用 相同 的 端口 ， 而 且 如 果 已 经 调用 过 bina， 那 么 所 用 端口 必须 是 调 
用 bind 时 指定 的 端口 ， 否 则 sctp_bindx 调 用 将 失败 。 图 23-7 给 出 了 一 个 实用 函数 ， 它 把 作为 函 
数 参 数 提供 的 地 址 子 集 捆绑 到 给 定 的 套 接 字 。 





sctp/sctp bindargs.c 


1 #include "unp.h" 

2 int 

3 sctp bind arg list(int sock fd, char **argv, int argc) 

4{ 

5 struct addrinfo *addr; 

6 char *bindbuf, *p, portbuf[10]; 

7 int addrcnt-0; 

8 int i; 

9 bindbuf - (char *)Calloc(argc, sizeof(struct sockaddr storage)); 
10 p = bindbuf; 

11 sprintf (portbuf, "$d", SERV PORT); 

12 for ( i-0; i«argc; i++ ) ( 

13 addr = Host serv(argv[i], portbuf, AF UNSPEC, SOCK, SEQPACKET); 
14 memcpy (p, addr-»ai addr, addr-»ai addrlen); 

15 freeaddrinfo (addr) ; 

16 addrent++; 

17 p += addr->ai_addrlen; 

18 } 

19 Sctp_bindx(sock_fd, (SA *)bindbuf,addrcnt,SCTP BINDX ADD ADDR); 
20 free (bindbuf) ; 

21 return (0); 


sctp/sctp bindargs.c 
HH23-7 ”捆绑 一 个 地 址 子 集 的 函数 
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分 配 捆绑 参数 所 需 空间 

9-10 sctp_bina_arg_list 函 数 首先 会 分 配 sctp_bindx 调 用 的 地 址 列表 参数 所 需 的 空间 。 
注意 sctp_bindx 能 够 混和 接受 IPv4 和 IPv6 地 址 。 我 们 为 每 个 地 址 分 配 足 以 装 下 
sockaddr_storage 结 构 的 空间 , 尽管 地 址 列表 参数 是 多 个 实际 套 接 字 地 址 结构 的 紧凑 
列表 (图 9-4)。 这 么 做 导致 一 定 的 内 存 空间 浪费 ， 不 过 总 比 处 理 参数 表 两 次 以 计算 出 精 
确 的 内 存 空 间 大 小 简单 些 。 

处 理 参 数 

11-18 ”把 portbuf 设 置 成 端口 的 ASCII 表 达 形 式 ， 以 便 调用 getaddrinfo 的 外 包 函 数 之 一 
host_serv。 把 每 个 地 址 和 这 个 端口 传递 给 host_serv， 同时 传递 AF_UNSPEC 作 为 地 址 
族 以 允许 IPv4 或 IPv6 地 址 , 传递 Sock_sEQPACKET 作 为 套 接 字 类 型 指明 使 用 SCTP。 我 们 
仅仅 复制 host_serv 返 回 的 第 一 个 套 接 字 地 址 结构 。 既 然 本 函数 的 参数 是 各 个 地 址 的 
数 串 表达 式 ， 而 不 是 可 能 关联 多 个 地 址 的 名 字 表 达 式 ， 这 么 处 理 是 安全 的 。 随 后 释放 
由 host_serv 内 包 的 getaddrinfo 分 配 的 空间 ， 递增 地 址 计数 ， 并 把 指针 移 到 紧凑 的 套 
接 字 地 址 结构 数组 的 下 一 个 元 素 。 

调用 捆绑 函数 

19 ”该 函数 会 将 指针 重 置 到 所 捆绑 缓冲 区 的 顶端 ， 并 以 刚才 准备 的 地 址 列表 调用 sctp_bindx。 
返回 成 功 
20-21 ”如 果 函 数 能 运行 至 此 ， 则 清理 所 用 缓冲 区 并 返回 成 功 。 
图 23-8 给 出 了 使 用 本 函数 的 服务 器 程序 main 函 数 ， 它 改 为 捆绑 以 命令 行 参数 形式 传递 的 一 
系列 地 址 。 我 们 只 是 稍 作 改 动 ， 因 此 总 是 在 回 射 请 求 消息 到 达 的 流 上 回 射 应 答 消息 。 


sctp/sctpserv07.c 
12 if(argc « 2) 
13 err quit("Error, use $s [list of addresses to bind]\n", argv{0)); 
14 Sock fd - Socket(AF INET6, SOCK SEQPACKET, IPPROTO SCTP); 
15 if(sctp bind arg list(sock fd, argv + 1, argc - 1)) 
16 err sys("Can't bind the address set"); 
17 bzero(&evnts, sizeof(evnts)); 
i8 evnts.sctp data io event - 1; 
sctp/sctpserv07.c 


图 23-8 ”使 用 数目 可 变 的 一 组 地 址 的 服务 器 程序 


使 用 IPv6 的 程序 代码 
14 这 里 我 们 看 到 的 是 全 章 都 在 介绍 的 服务 器 程序 ， 不 过 有 点 小 改动 。 在 这 里 服务 器 创建 
的 是 AF_INET6 套 接 字 ， 因 此 IPv4 和 IPv6 都 能 使 用 。 
调用 新 的 函数 
15~16 服务 器 调用 新 的 捆绑 函数 ， 把 命令 行 参数 作为 函数 参数 传递 给 它 处 理 。 


23.7 确定 对 端 和 本 端 地 址 信息 OOOO 


SCTP 是 一 个 多 宿 协议 , 找 出 一 个 关联 的 本 地 端点 和 远程 端点 所 用 的 地 址 需要 使 用 不 同 于 单 
宿 协议 的 机 制 。 本 节 中 我 们 把 10.4 节 的 客户 程序 改 为 接收 通信 开工 〈communication up) 通知 ， 
然后 使 用 该 通知 显示 关联 的 本 端 和 对 端的 地 址 。 图 23-9 和 图 23-10 给 出 修改 后 的 客户 程序 main 函 
数 和 sctp_strcli 函 数 。 图 23-11 和 图 23-12 给 出 新 增 的 函数 。 
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e sctp/sctpclient04 
16 bzero(&evnts, sizeof(evnts)); 
17 evnts.sctp data io event - 1; 
18 evnts.sctp association event - 1; 
19 Setsockopt (sock, fd,IPPROTO SCTP, SCTP EVENTS, &evnts, sizeof(evnts)); 
20 sctpstr cli (stdin,sock fd, (SA *)&servaddr, sizeof (servaddr)); 
TRE e — — sctp/sctpclient04 
图 23-9 ”设置 接收 通信 开工 通知 的 客户 程序 
设置 时 间 通 知 并 调用 回 射 函数 
16-20 ” main 函数 有 了 些许 改动 。 客 户 程序 显 式 预订 关联 变动 通知 ， 通 信 开 工 通知 属于 该 通知 
类 型 。 


接着 是 sctp_strcli 函 数 的 改动 〈 见 图 23-10)， 它 使 用 新 的 通信 处 理 实用 函数 check_ 


notification. 





sctp/sctp strclil.c 


21 do ( 
22 len = sizeof (peeraddr) ; 
23 rd sz = Sctp_recvmsg(sock_fd, recvline, sizeof (recvline), 
24 (SA *)&peeraddr, &len, &sri, &msg_flags); 
25 if (msg flags & MSG NOTIFICATION) 
26 check notification(sock, fd, recvline,rd sz); 
27 ) while (msg flags & MSG, NOTIFICATION) ; 
28 printf("From str:%d seq:%d (assoc:0x%x):", 
29 sri.sinfo_stream,sri.sinfo_ssn, (u int)sri.sinfo assoc id); 
30 printf("$.*s", rd sz, recvline); 
— —————————— —  sctp/sctp. strelil.c 
图 23-10 ”处 理 通 知 的 sctp_strcli 函 数 
循环 等 待 消息 


21-24 客户 会 设置 套 接 字 地 址 结构 长 度 变量 ， 调 用 接收 函数 获取 由 服务 器 回 射 的 应 答 消 息 。 
检查 通知 
25-26 客户 会 查看 刚 读 入 的 消息 是 不 是 一 个 通知 。 若 是 则 调用 图 23-11 所 示 的 通知 处 理 函 数 。 
直到 读 入 数据 
27 “如 果 刚 读 入 的 是 一 个 通知 ， 那 就 继续 循环 ， 直 到 读 入 真正 的 数据 。 
显示 消息 
28-30 显 式 消息 并 回 到 处 理 循 环 项 部 ， 等 待 用 户 输入 。 
再 接着 是 check_notification 函 数 〈 见 图 23-11)， 它 在 某 个 关联 通知 到 达 之 后 显示 本 地 
和 远程 两 个 端点 的 地 址 。 
检查 是 否 为 期 望 的 通知 
9-13 ”该 函数 把 接收 缓冲 区 类 型 强制 转换 成 通用 的 通知 指针 ， 以 便 找 出 通知 类 型 。 如 果 本 通 
知 是 所 关注 的 类 型 ( 即 关联 变动 类 通知 )， 那 就 测试 它 是 否 为 一 个 新 的 或 重新 激活 的 关 
Hk 《scTP_COMM_UP 或 scTP_RESTART)。 我 们 忽略 所 有 其 他 通知 。 
收集 并 显示 对 端 地 址 
14-17 ”调用 sctp_getpaddrs 汇 集 远 程 地址 列表 ， 然 后 显示 地 址 数目 ， 并 调用 图 23-12 所 示 的 
地 址 显示 实用 函数 sctp_print_adGresses 显 示 各 个 地 址 。 完 成 之 后 调用 sctp_ 
freepaddrs 释 放 由 sctp_getpaddrs 分 配 的 资源 。 


23.7 ”确定 对 端 和 本 端 地 址 信息 499 





1 #include "unp.h" 


2 void 
3 check notification(int sock fd,char *recvline,int rd len) 


4 { 

5 union sctp_notification *snp; 

6 struct sctp assoc change *sac; 

7 struct sockaddr, storage *sal,*sar; 
8 


sctp/sctp check notify.c 


int num rem, num loc; 
9 snp - (union sctp notification *)recvline; 
10 if(snp-»sn header.sn type == SCTP ASSOC CHANGE) { 
11 sac = &snp-»sn assoc change; 
12 if ((sac-»sac state == SCTP COMM UP) |! 
13 (sac-»sac state -- SCTP RESTART)) ( 
14 num rem - sctp getpaddrs (sock fd,sac-»sac assoc id,&sar); 
15 printf("There are $d remote addresses and they are:Mn", num rem); 
16 Sctp print addresses(sar, num rem); 
17 sctp freepaddrs (sar); 
18 num loc - sctp getladdrs (sock fd,sac-»sac assoc, id,&sal); 
19 printf ("There are $d local addresses and they are: Mn", num loc); 
20 Sctp print addresses (sal,num loc); 
21 Ssctp freeladdrs (sal); 
22 } 
23 } 
24 } 


图 23-11 通知 处 理 函 数 





#include "unp.h" 


void 
sctp print addresses(struct sockaddr storage *addrs, int num) 
( 

struct sSockaddr storage *ss; 

int i,salen; 


ss = addrs; 
for (i=0; i<num; i++) { 

printf("$sWn", Sock ntop((SA *)ss, salen)); 
10 #ifdef HAVE SOCKADDR, SA LEN 


OO MRAWN me 


11 salen = ss-»ss len; 

12 #else 

13 switch(ss-»ss family) ( 

14 case AF INET: 

15 salen - sizeof(struct sockaddr in); 

16 break; 

17 #ifdef IPV6 

18 case AF INET6: 

19 salen - sizeof(struct sockaddr in6); 

20 break; 

21 #endif 

22 default: 

23 err quit("sctp print addresses: unknown AF"); 
24 break; 

25 ) 

26 #endif 

27 SS = (struct sockaddr storage *)((char *)ss + salen); 
28 ) 

29 ) 





图 23-12 ”地 址 列表 显示 函数 


sctp/sctp check notify.c 


ctp/sctp print addrs.c 


ctp/sctp print addrs.c 
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收集 并 显示 本 地 地 址 
18-21 调用 sctp_get1ladars 收 集 本 地 地 址 列表 ， 并 显示 地 址 数目 和 各 个 地 址 本 身 。 在 通知 处 
理 函 数 使 用 完 这些 地 址 后 调用 sctp_freeladars 释 放 由 sctp_getladadrs 分 配 的 资 
源 。 
J& JG jÉsctp print addresses 函数 ( JL K 23-12), € lE a Hi sctp_getpaddrs 或 
sctp_getladdrs 返 回 的 地 址 列表 。 
处 理 每 个 地 址 
7-8 ”根据 调用 者 指定 的 地 址 数目 遍历 每 个 地 址 。 
显示 地 址 
9 ”调用 sock_ntop 显 示 地 址 。 该 函数 能 够 显示 系统 支持 的 任何 套 接 字 地 址 结构 格式 。 
确定 地 址 大 小 
10-26 地址 列表 是 一 个 紧凑 的 套 接 字 地 址 结构 数组 ， 而 不 是 单一 sockaddr_storage 结 构 的 数 
41. 这 是 因为 sockaddr_storage 结 构 太 大 , 用 它 在 内 核 和 进程 之 间 传递 地 址 过 于 浪费 
内 存 空间 。 如 果 套 接 字 地 址 结构 自 带 长 度 成 员 ， 那 就 直接 使 用 其 值 作为 本 结构 的 长 度 
否则 就 根据 地 址 族 选择 长 度 ， 若 不 是 已 知 地 址 族 则 显示 一 个 出 错 消 息 并 退出 。 
移动 地 址 指针 
27 ”根据 所 确定 的 地 址 大 小 前 向 移动 地 址 指针 ， 指 向 下 一 个 待 处 理 的 地 址 。 


运行 代码 
我 们 按 以 下 方式 启动 客户 并 发 送 一 个 消息 : 


FreeBSD-lap: ./sctpclient01 10.1.1.5 
(O}Hi 

There are 2 remote addresses and they are: 
10.1.1.5:9877 

127.0.0.1:9877 

There are 2 local addresses and they are: 
10.1.1.5:1025 

127.0.0.1:1025 

From str:0 seq:0 (assoc:c99e2680):[0]Hi 
Control-D 

FreeBSD-lap: 
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在 23.7 节 所 做 的 客户 程序 改动 中 ， 客 户 使 用 关联 通知 事件 引发 地 址 列表 的 获取 。 这 类 通知 
在 sac_assoc_id 成 员 中 给 出 了 关联 标识 ， 因 此 可 用 于 从 中 地 址 反 查 关联 ID 。 然 而 如 果 应 用 进 
程 没 有 在 跟踪 关联 标识 ， 而 且 只 知道 一 个 对 端 地 址 ， 它 如 何 才 能 找到 它 的 关联 ID 了 呢 ? 图 23-13 
给 出 了 从 一 个 对 端 忆 地 址 转换 成 一 个 关联 ID 的 简单 函数 。23.10 节 给 出 的 服务 器 程序 将 使 用 本 
PA 
初始 化 

7-8 ”初始 化 所 用 的 sctp_paddrparams 结 构 。 

复制 地 址 

9 ”把 作为 参数 传 入 的 套 接 字 地 址 结构 按照 同时 传 入 的 长 度 复制 到 sctp_paddrparams 结 构 中 。 
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1 #include “unp.h" 








— —— — ——sctp/sctp addr. to associd.c 


2 sctp assoc t 
3 sctp address to associd(int sock fd, struct sockaddr *sa, socklen t salen) 


4 { 
5 struct sctp_paddrparams sp; 
6 int siz; 
7 siz = sizeof (struct sctp_paddrparams) ; 
8 bzero(&sp,siz); 
9 memcpy(&sp.spp address, sa, salen); 
10 sctp opt info(sock fd, 0, SCTP PEER ADDR PARAMS, &sp, &Siz); 
11 return(sp.spp assoc id); 
12 ) 
sctp/sctp addr to associd.c 
图 23-13 ”从 了 PP 地 址 到 关联 ID 的 转换 函数 
获取 套 接 字 选 项 值 


10 ”通过 获取 ScTP_PEER_ADDR_PRARAMS 套 接 字 选 项 值 取 得 对 端 地 址 参数 。 既 然 该 套 接 字 选 项 需 
要 既往 内 核 复 制 入 又 从 内 核 复制 出 参数 , 因此 我 们 不 用 getsockopt, 而 用 sctp_opt_ info. 
本 调用 返回 当前 心 搏 间隔 、ScTP 实 现 认 定 对 端 地 址 不 可 达 所 需 的 最 大 重 传 次 数 以 及 最 为 重要 
的 关联 ID。 我 们 不 检查 本 调用 的 返回 值 ， 如 果 调 用 失败 ， 那 就 返回 0。 
11 把 关联 ID 返回 给 调用 者 。 如 果 刚 才 的 调用 失败 ， 早 先 对 sctp_paddrparams 结 构 的 清 零 
将 确保 调用 者 得 到 值 为 0 的 关联 ID.。 关联 ID 不 允许 为 0, 不 过 SCTP 也 可 以 使 用 0 值 关联 ID 
作为 没有 关联 的 指示 。 
23.9 ” 心 捕 和 地 址 不 可 达 
SCTP 提 供 类 似 TCP 的 保持 存活 选项 的 心 搏 机 制 。SCTP 的 心 搏 机 制 默认 就 开启 。 应 用 进程 
可 以 使 用 23.8 节 用 到 的 同一 个 套 接 字 选 项 设置 某 个 对 端 地 址 的 心 捕 间隔 和 出 错 门限 。 出 错 门限 
是 认定 这 个 对 端 地 址 不 可 达 之 前 必须 发 生 的 心 搏 遗失 亦 即 超时 重 传 次 数 。 由 心 搏 检测 到 该 对 端 
地 址 再 次 变 为 可 达 时 ， 该 地 址 重新 开始 活跃 。 
应 用 进程 可 以 禁止 心 搏 ， 不 过 要 是 没有 心 搏 的 话 ，SCTP 将 无 法 检测 一 个 被 认定 不 可 达 的 对 
端 地 址 再 次 变 为 可 达 。 没 有 用 户 和 干预 ， 这 些 地 址 就 不 能 回 到 活跃 状态 。 
sctp_paddrparams 结 构 中 的 心 搏 间隔 字段 是 spp_hbinterval。 其 值 为 ScTP_No_HB 即 0 表 
示 禁 止 心 搏 。 其 值 为 ScTP_ISSUE_HB 即 0xffffffff 表 示 一 经 请 求 立 即 心 搏 。 任 何其 他 值 以 毫秒 
为 单位 设置 心 搏 间隔 。 该 值 加 上 当前 重 传 计 时 器 的 值 ， 再 加 上 一 个 跑 机 的 抖动 值 就 构成 了 心 搏 
的 间 隐 时 间 。 图 23-14 给 出 的 小 函数 可 用 于 针对 某 个 对 端 地 址 设置 确切 的 心 捕 间 隔 ， 或 请 求 立 即 
心 搏 一 次 ， 或 禁止 心 捕 。 注 意 ， 把 sctp_paddrparams 结 构 中 的 重 传 次 数 成 员 spp_pathmaxrxt 
设置 为 0 表示 保持 其 当前 值 不 变 。 
清 零 sctp_paddrparams 结 构 并 复制 心 捕 间隔 
7~8” 清 零 sctp_paddrparams 结 构 ， 确保 不 改动 心 捕 机 制 的 任何 非 关 注 参 数 。 把 调用 者 给 定 
的 心 搏 间隔 值 复制 到 该 结构 中 ， 可 以 是 scTP_ISSUE_HB、ScTP_NO_HB 或 一 个 确切 的 心 
搏 间隔 。 
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sctp/sctp modify hb.c 
1 #include "unp.h" 


2 int 

3 heartbeat action(int sock fd, struct sockaddr *sa, socklen t salen, 
4 u int value) 

5 { 

6 struct sctp_paddrparams sp; 

7 int siz; 

8 bzero(&sp, sizeof (sp) ) 

9 sp.spp_hbinterval = value; 

10 memcpy ((caddr t)&sp.spp address, sa, salen); 

11 Setsockopt (sock fd, IPPROTO SCTP, 

12 SCTP PEER, ADDR PARAMS, &sp, sizeof(sp)); 
13 return(0); 


sctp/sctp modify hb.c 
图 23-14” 心 搏 控制 实用 函数 

设置 对 端 地 址 

10 ”把 实施 心 搏 的 对 端 地 址 复制 到 sctp_paddrparams 结 构 中 ,以 便 ScTP 实 现 了 解 我 们 希望 它 向 

哪个 地 址 发 送 心 搏 请 求 。 

执行 所 需 行 为 
11-12 调用 setsockopt 执 行 用 户 请 求 的 行为 。 
28:10 ZEHA 

至 此 我 们 一 直 在 关注 SCTP 提 供 的 一 到 多 式 接口 。 一 到 多 式 接口 相 比 更 为 传统 的 一 到 一 式 接 
口 存在 以 下 优势 。 

e 只 需 维护 单个 描述 符 。 

e 人 允许 编写 简单 的 途 代 服 务 器 程序 。 

e 允许 应 用 进程 在 四 路 握手 的 第 三 个 和 第 四 个 分 组 发 送 数据 ， 只 需 使 用 sendmsg 或 

sctp_sendmsg 隐 式 建 立 关联 就 行 。 
e 无 需 跟 踪 传 输 状 态 。 也 就 是 说 应 用 进程 只 需 在 套 接 字 描述 符 上 执行 一 个 接收 调用 就 可 以 
接收 消息 ， 之 前 不 必 执 行 传统 的 connect 或 accept 调 用 。 

然而 一 到 多 式 接 口 却 存在 一 个 主要 缺陷 : 造成 难以 编写 并 发 服务 器 程序 〈 用 线程 或 派生 子 
进程 )。 该 缺陷 促成 增设 sctp_peeloff 函 数 。 该 函数 取 一 个 一 到 多 式 套 接 字 描述 符 和 一 个 关联 
ID， 返 回 一 个 新 的 仅仅 附 以 给 定 关 联 的 一 到 一 式 套 接 字 描 述 符 《〈 再 加 上 已 经 排队 在 该 关联 上 的 
通知 和 数据 )。 原 始 的 一 到 多 式 套 接 字 继续 开放 ， 它 代表 的 其 他 关联 均 不 受 此 影响 。 

该 套 接 字 然 后 可 以 递交 给 某 个 专门 的 线程 或 子 进程 加 以 处 理 ， 从 而 实现 并 发 服务 器 。 我 们 
把 10.2 节 给 出 的 服务 器 程序 改 为 : 先 处 理 某 个 客户 的 第 一 个 请 求 消息 ， 再 使 用 sctp_peeloff 剥 
离 出 处 理 该 客户 的 一 个 套 接 字 , 派生 一 个 子 进程 后 由 子 进程 调用 5.3 节 介绍 的 str_echo 函 数 , 如 
图 23-15 所 示 。 我 们 调用 23.8 节 给 出 的 实用 函数 把 所 接收 消息 的 源 地 址 转换 成 关联 ID。 当 然 这 个 
关联 ID 也 出 现在 sri.sinfo_assoc_id 中 ， 我 们 这 么 转换 只 是 为 了 展示 这 个 从 IP 地 址 确定 关联 
ID 的 方法 。 派 生子 进程 后 ， 服 务 器 父 进 程 循环 回去 处 理 来 自 下 一 个 客户 的 请 求 。 
接收 并 处 理 来 自 客户 的 第 一 个 消息 
26-30 ”接收 并 处 理由 某 个 客户 发 送 的 第 一 个 消息 。 
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sctp/sctpserv fork.c 
23 for (; : 0) ( 
24 len = sizeof(struct sockaddr in); 
25 rd sz - Sctp recvmsg(sock fd, readbuf, sizeof(readbuf), 
26 (SA *)&cliaddr, &len, &sri, &msg flags); 
27 Sctp sendmsg(sock fd, readbuf, rd sz, 
28 (SA *)&cliaddr, len, 
29 sri.sinfo_ppid, 
30 sri.sinfo_flags, sri.sinfo_stream, 0, 0); 
31 assoc - sctp address to associd(sock fd, (SA *)&cliaddr, len); 
32 if ((int)assoc == 0) ( 
33 err_ret ("Can't get association id"); 
34 continue; 
39 ) 
36 connfd - sctp peeloff(sock fd, assoc); 
37 if (connfd == -1) ( 
38 err ret("sctp peeloff fails"); 
39 continue; 
40 ) 
41 if((childpid = fork()) == 0) { 
42 Close (sock_fd) ; 
43 str_echo(connfd) ; 
44 exit (0); 
45 } else { 
46 Close (connfd) ; 
47 } 
48 } 
- - sctp/sctpserv fork.c 
图 23-15 一 个 并 发 SCTP 服 务 器 程序 
把 地 址 转换 成 关联 ID 


31-35 调用 图 23-13 给 出 的 函数 把 该 消息 的 源 地 址 转换 成 一 个 关联 ID。 如 果 无 法 取得 该 关联 
ID， 那 就 跳 过 它 而 不 试图 派生 子 进程 继续 处 理 。 

剥离 出 关联 

36-40 调用 sctp_peeloff 把 与 该 客户 的 关联 剥离 到 自己 的 一 到 一 式 套 接 字 中 。 这 会 形成 一 个 
可 以 被 传递 到 先前 的 TCP 版 str_echo 函 数 的 一 对 一 式 套 接 字 。 

派 遗 工作 给 子 进程 

41~47 ”派生 一 个 子 进程 ， 让 该 子 进程 执行 这 个 新 套 接 字 上 的 所 有 后 续 工 作 。 


SI NT A POT? AB I MS me 


SCTP 有 许多 用 户 可 调 的 控制 量 ， 它 们 都 通过 我 们 在 7.10 节 讨论 过 的 套 接 字 选项 访问 。 我 们 
在 本 节 讨 论 一 些 定时 控制 量 , 它们 影响 SCTP 端 点 需 多 久 才 能 声称 某 个 关联 或 某 个 对 端 地 址 已 经 
失效 。 

SCTP 有 7 个 确定 失效 检测 定时 的 控制 量 ， 如 图 23-16 所 示 。 

这 些 控制 量 影响 SCTP 的 失效 检测 速度 或 重 传 尝试 次 数 , 可 以 认为 它们 是 缩短 或 延长 端点 失 
效 检测 时 间 的 控制 手柄 。 我 们 首先 查看 以 下 两 种 情形 。 

(1) 一 个 SCTP 端 点 试图 打开 与 某 个 对 端的 关联 , 而 该 对 端 主机 已 经 断 开 与 网 络 的 物理 连接 。 

(2) 两 个 多 宿 的 SCTP 端 点 主机 在 交换 数据 ， 其 中 之 一 在 通信 过 程 中 关机 。 由 于 防火 墙 的 过 
滤 ， 对 端 主机 没有 收 到 任何 ICMP 消 息 。 
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srto min 最 小 重 传 超时 
srto_max 最 大 重 传 超时 
srto_initial 初始 重 传 超时 


sinit_max_init_timeo INIT 阶 段 最 大 重 传 超时 
sinit, max attempts INIT 的 最 大 重 传 次 数 
Spp pathmaxrxt 每 个 地 址 的 最 大 重 传 次 数 
sasoc_asocmaxrxt 每 个 关联 的 最 大 重 传 次 数 








图 23-16 ”SCTP 中 控制 定时 的 字段 


第 一 种 情形 下 , 试图 打开 关联 的 系统 首先 把 RTO 定 时 器 设置 成 srto_initial 值 即 3000 ms. 
发 生 一 次 超时 后 ， 它 重 传 INIT 消 息 并 把 RTO 定 时 器 倍增 成 6000 ms。 这 样 的 行为 将 持续 到 已 经 发 
送 了 sinit_max_attempts 值 即 8 次 INIT 消 息 ， 且 每 次 传送 都 发 生 超时 为 止 。RTO 定 时 器 的 倍增 
以 sinit_max_init_timeo 值 即 60 000 ms 这 一 上 限 。 因 此 SCTP 从 开始 发 送 INIT 消 息 到 宣告 潜在 
对 端 主机 不 可 达 所 花 的 总 时 间 为 3+6+12+24+48+60+60+60=273 s. 

我 们 可 以 旋 动 一 些 手柄 或 手柄 组 合 来 缩短 或 延长 这 个 时 间 。 让 我 们 聚焦 在 可 用 于 把 这 个 时 
间 缩 短 到 譬如 270 s 的 两 个 参数 sinit_max_attempts 和 sinit_max_init_timeo。 方 法 之 一 是 减 
少 由 sinit_max_attempts 规 定 的 重 传 次 数 。 如 果 把 重 传 次 数 减 少 到 4 次 ， 失 效 检测 时 间 将 缩短 
到 4$s， 约 是 默认 设置 给 出 的 时 间 的 116。 这 个 方法 的 缺点 是 增加 了 发 生 如 下 情况 的 概率 : 对 端 
主机 可 达 ， 不 过 由 于 网 络 丢 失 或 对 端 主机 过 载 等 原因 ， 我 们 声称 它 不 可 达 。 

方法 之 二 是 缩短 由 sinit_max_init_timeo 规 定 的 INIT 消 息 最 大 RTO 值 。 如 果 把 最 大 RTO 
降低 到 20 s， 失 效 检测 时 间 将 缩短 到 121 s， 不 到 原初 值 的 一 半 。 这 个 方法 的 缺点 是 过 低 的 最 大 RTO 
可 能 导致 过 密 地 重 传 INIT 消 息 。 

第 二 种 情形 下 ,假设 一 个 端点 有 2 个 地 址 IP-A 和 IP-B， 另 一 个 端点 也 有 2 个 地 址 IP-X 和 IP-Y。 
如 果 其 中 之 一 因 关 机 而 变 得 不 可 达 (假设 数据 原先 由 现 未 关机 的 那个 端点 发 送 )， 发 送 端点 将 对 
于 每 个 对 端 地 址 相继 发 生 超时 ， 开 始 为 srto_min 值 (默认 为 1s)， 以 后 一 直 倍 增 到 对 于 每 个 对 端 
地 址 都 达到 上 限 的 srto_max 值 (默认 为 60 s)。 该 端点 将 重 传 关联 的 sasoc_asocmaxrxt 值 ( 默 
认为 10 次 重 传 )。 

发 送 端点 经 历 的 超时 总 和 为 1 (IP-A) +1 (IP-B) +2 (IP-A) +2 (IP-B) +4 (IP-A) +4 (P-B) 48 
(IP-A) +8 (IP-B) +16 (IP-A) +16 CIP-B) =62 s。srto_max 没 有 起 上 限 作 用 ， 因 为 在 它 能 够 
起 作用 之 前 关联 重 传 次 数 已 经 达到 sasoc_asocmaxrxt。 让 我 们 再 次 聚焦 在 可 用 于 影响 这 些 超 
时 和 最 终 失 效 检测 时 间 的 两 个 参数 : 修改 sasoc_asocmaxrxt 值 〈( 默 认为 10) 可 以 减少 重 传 党 
试 次 数 ， 修 改 srto_max 值 (默认 为 60 s) 可 以 降低 最 大 RTO。 如 果 把 srto_max 设 置 成 10 s， 检 
测 时 间 就 能 减少 12 s, 结果 为 $0s。 如 果 把 sasoc_asocmaxrxt 设 置 成 8, 检测 时 间 就 会 缩短 到 30 s。 
第 一 种 情形 下 提 及 的 缺陷 同样 适用 于 本 情形 : 持续 时 间 较 短 的 可 恢复 网 络 故障 或 远程 系统 过 载 
可 能 导致 工作 中 的 关联 被 自动 拆除 。 

在 众多 定时 控制 景 中 ， 我 们 不 建议 降低 最 小 RTO 《srto_min)。 跨 因特网 通信 时 降低 该 值 
会 导致 以 更 短 的 间隔 重 传 消息 ， 从 而 过 度 消 耗 因 特 网 基础 设施 资源 。 在 私 用 网 络 上 调 低 该 值 尚 
可 接受 ， 然 而 对 于 大 多 数 应 用 来 说 ， 该 值 不 宜 减 少 。 

应 用 进程 在 旋 动 这 些 定时 手柄 之 前 必须 考虑 以 下 若干 因素 。 

e 应 用 进程 需要 以 多 快 的 速度 进行 失效 检测 ? 

e 应 用 进程 运行 在 整个 端 对 端 路 径 相对 因特网 而 言 更 广为人知 且 变 化 更 少 的 私 用 网 络 上 吗 ? 
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。 虚假 的 失效 检测 会 有 什么 后 果 ? 
仔细 回答 这 些 问题 后 ， 应 用 进程 才能 恰当 地 调整 SCTP 的 定时 参数 。 


ases “aR SCIP RESTOR 一 sinistral 





SCTP 最 初 开发 目的 是 跨 因 特 网 传输 电话 呼叫 控制 信 令 。 然 而 在 其 开发 过 程 中 ,其 适用 范围 
被 扩展 到 自 成 一 个 通用 传输 协议 的 程度 。 它 提供 TCP 的 大 多 数 特性 ， 又 增设 广泛 的 魏 新 传输 层 
服务 。 多 数 应 用 程序 可 以 从 中 受益 。 因 此 何 时 值得 改 用 SCTP 了 呢 ? 我 们 先 列 出 SCTP 的 益处 。 

(1) SCTP 直 接 支持 多 宿 。 一 个 端点 可 以 利用 它 的 多 个 直接 连接 的 网 络 获得 额外 的 可 靠 性 。 
除了 移植 到 SCTP 外 ， 应 用 程序 无 需 采 取 其 他 行为 就 可 以 自动 使 用 SCTP 的 多 宿 服 务 。 关 于 SCTP 
的 多 宿 细 节 参 见 [Stewart and Xie 2001] 的 7.4 节 。 

(2) 可 以 消除 头 端 阻塞 。 应 用 进程 可 以 使 用 单个 SCTP 关 联 并 行 地 传输 多 个 数据 元 素 。 同 一 
个 关联 内 ， 一 个 流 中 的 数据 丢失 不 会 影响 其 他 并 行 的 流 中 的 数据 流动 (10.5 节 )。 

(3) 保持 应 用 层 消息 边界 。 许 多 应 用 发 送 的 并 不 是 字 节 流 ， 而 是 消息 。SCTP 保 持 应 用 进程 
发 送 的 消息 边界 ， 从 而 略微 简化 了 应 用 程序 开发 人 员 的 任务 。 使 用 SCTP 无 需 在 字 节 流 中 标记 消 
息 边界 ， 也 无 需 提供 在 接收 端 从 字 节 流 中 重 构 出 消息 的 特殊 处 理 代码 。 

(4) 提供 无 序 消息 服务 。 对 于 某 些 应 用 ,消息 的 到 达 顺 序 无 关 紧 要 。 这 样 的 应 用 出 于 可 靠 性 
要 求 一 般 使 用 TCP， 不 过 没有 顺序 要 求 的 消息 还 是 将 按照 发 送 端 提交 顺序 递送 到 接收 端 。 其 中 
任何 一 个 消息 的 丢失 将 导致 并 非 不 可 避免 的 头 端 阻塞 ， 即 后 续 消 息 即 使 到 达 也 不 能 提前 无 序 递 
送 。SCTP 的 无 序 服务 可 用 于 避免 这 个 问题 ， 使 得 应 用 需求 与 传输 服务 直接 匹配 。 

(5) 有 些 SCTP 实 现 提供 部 分 可 靠 服 务 。 这 个 特性 允许 SCTP 发 送 端 为 每 个 消息 指定 一 个 生命 
期 ， 使 用 的 是 sctp_sndrcvinfo 结 构 的 sinfo_timetolive 字 段 。( 这 个 生命 期 不 同 于 IPv4 的 
TTL 或 IPv6 的 跳 限 ， 它 是 真正 的 时 间 长 度 。〉 当 源 端 点 和 目的 端点 都 支持 本 特性 时 ， 时 间 敏 感 的 
过 期 数据 可 改 由 传输 层 而 不 是 应 用 进程 丢弃 (该 数据 可 能 发 送 过 ,不 过 丢失 了 )， 从 而 在 面临 网 
络 阻塞 时 优化 数据 的 传输 。 

(6) SCTP 以 一 到 一 式 接 口 提供 了 从 TCP 到 SCTP 的 简易 移植 手段 。 该 接口 类 似 典 型 的 TCP 接 
口 ， 因 此 稍 加 修改 ， 一 个 TCP 应 用 程序 就 能 移植 成 SCTP 应 用 程序 。 

(7) SCTP 提 供 TCP 的 许多 特性 ， 包 括 正面 确认 、 重 传 丢 失 数 据 、 重 排 数 据 、 窗 口 式 流量 控 
制 、 慢 启动 、 拥 塞 避 免 、 选 择 性 确认 ， 没 有 包括 进来 的 两 个 例外 特性 是 半 关 闭 状态 和 紧急 数据 。 

(8) SCTP 提 供 许 多 供应 用 进程 配置 和 调整 传输 服务 ， 以 便 基 于 关联 匹配 其 需求 的 挂钩 CL 
本 章 和 7.10 节 )。 这 些 挂钩 提供 的 灵活 性 配合 良好 的 默认 设置 ( 供 不 希望 调整 传输 服务 的 应 用 进 
程 使 用 )， 为 应 用 程序 提供 了 TCP 难 以 企及 的 控制 能 力 。 

SCTP 不 提供 的 TCP 特 性 之 一 是 半 关 闭 状态 。 当 一 个 应 用 进程 关闭 了 某 个 TCP 连 接 的 自身 一 
半 却 仍然 允许 对 端 发 送 数 据 时 ， 该 连接 进入 半 关 闭 状态 (6.6 节 )， 同 时 告知 对 端 本 端 已 经 发 送 
完 数据 。 使 用 本 特性 的 应 用 不 是 很 多 , 因此 在 SCTP 开 发 阶段 , 本 特性 被 认为 不 值得 增加 到 SCTP 
中 。 确实 需要 本 特性 的 应 用 程序 移植 到 SCTP 时 不 得 不 修改 应 用 层 协 议 ， 在 应 用 数据 流 中 提供 这 
个 告知 EOF 的 手段 。 有 些 个 案 如 此 修改 协议 并 非 轻 而 易 举 之 事 。 

SCTP 不 提供 的 TCP 特 性 之 二 是 紧急 数据 。 使 用 分 离 的 SCTP 流 传输 紧急 数据 多 少 类 似 TCP 
的 紧急 数据 的 语义 ， 不 过 难以 准确 复制 这 个 特性 。 

不 能 从 SCTP 中 真正 获 益 的 是 那些 确实 必须 使 用 面向 字 节 流传 输 服 务 的 应 用 ， 辟 如 说 
telnet、rlogin、rsh、ssh 等 等 。 对 于 这 样 的 应 用 ，TCP 能 够 比 SCTP 更 高 效 地 把 字 节 流 分 割 
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分 装 到 TCP 分 节 中 。SCTP 忠 实地 保持 消息 边界 ， 当 每 个 消息 的 长 度 仅仅 是 一 个 字 节 时 ，SCTP 
封装 消息 到 数据 块 中 的 效率 非常 之 低 ， 导 致 过 多 的 开销 。 

总 之 ， 许 多 应 用 可 以 考虑 改 用 SCTP 重 新 实现 ， 前 提 是 SCTP 能 够 在 Unix 平 台 上 得 以 普及 。 
应 该 看 到 应 用 可 以 从 SCTP 的 特殊 特性 中 获 益 ， 要 是 SCTP 得 到 普及 ， 那 就 不 必死 盯 着 TCP 了 。 
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在 本 章 中 , 我们 学 习 了 SCTP 的 自动 关闭 机 制 ， 了 解 了 怎样 使 用 它 限制 一 到 多 式 套 接 字 中 可 
能 存在 的 闲置 关联 。 编 写 了 利用 部 分 递送 API 接 收 过 大 消息 的 简单 实用 函数 。 通 过 一 个 单纯 显 
示 通 知 的 简单 实用 函数 说 明了 应 用 进程 可 以 译 解 在 传输 中 发 生 的 事件 。 我 们 还 简单 查看 了 如 何 
发 送 无 序 的 数据 以 及 捆绑 一 个 地 址 子 集 。 我 们 还 查看 了 如 何 获悉 一 个 关联 的 本 地 端点 地 址 和 远 
程 端点 地 址 ， 并 提供 了 从 一 个 对 端 地 址 到 一 个 关联 ID 的 转换 方法 。 

心 搏 〈 在 TCP 中 称 为 保持 存活 ) 在 SCTP 关 联 上 默认 就 在 交换 。 我 们 通过 一 个 简单 实用 函数 
查看 了 如 何 控制 这 个 特性 。 我 们 还 查看 了 如 何 使 用 sctp_peeloff 系 统 调 用 从 一 个 一 到 多 式 套 接 
字 有 剥离 出 一 个 关联 并 自 成 一 个 一 到 一 式 套 接 字 ， 并 通过 例子 分 析 了 如 何 由 此 编写 并 发 式 服务 器 
程序 。 我 们 讨论 了 调整 SCTP 定 时 参数 前 需 考虑 的 因素 。 最 后 是 改 用 SCTP 需 考虑 的 因素 。 
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23.1 编写 一 个 客户 程序 ， 用 于 测试 23.3 节 中 使 用 部 分 递送 API 的 服务 器 程序 。 

23.2 除了 发 送 很 大 的 消息 给 23.3 节 中 的 服务 器 程序 外 ， 还 有 什么 其 他 方法 可 用 于 激发 该 程序 中 的 部 分 递 
送 API? 

233 重新 编写 部 分 递送 API 服 务 器 程序 ， 使 得 它 能 够 处 理 部 分 递送 API 通 知 。 

23.4 ”哪些 应 用 可 从 使 用 无 需 数 据 服务 中 获 益 昵 ?不 能 获 益 的 又 是 哪些 应 用 ? 请 给 出 解释 。 

23.5 如 何 测试 地 址 子 集 捆绑 服务 器 程序 ? 

23.6 假设 你 的 应 用 系统 运行 在 一 个 通过 局 域 网 互 连 起 来 的 私 用 网 络 上 ， 而 且 所 有 服务 器 进程 和 客户 进程 
都 运行 在 多 宿主 机 上 。 为 了 确保 在 2 秒 钟 或 以 内 完成 失效 检测 ， 需 要 调整 哪些 定时 参数 ? 


带 外 数据 





24.1 概述 


许多 传输 层 有 带 外 数据 Cout-of-band data) 的 概念 ， 它 有 时 也 称 为 经 加 速 数据 〈expedited 
data)。 其 想法 是 一 个 连接 的 某 端 发 生 了 重要 的 事情 ， 而 且 该 端 希 望 迅速 通告 其 对 端 。 这 里 “ 迅 
速 ” 意 味 着 这 种 通知 应 该 在 已 经 排队 等 待 发 送 的 任何 “普通 ”( 有 时 称 为 “ 带 内 ”) 数据 之 前 发 
送 。 也 就 是 说 ， 带 外 数据 被 认为 具有 比 普通 数据 更 高 的 优先 级 。 带 外 数据 并 不 要 求 在 客户 和 服 
务 器 之 间 再 使 用 一 个 连接 ， 而 是 被 映射 到 已 有 的 连接 中 。 

不 幸 的 是 ， 一 旦 超越 普通 概念 光临 现实 世界 ， 我 们 发 现 几乎 每 个 传输 层 都 各 自 有 不 同 的 带 
外 数据 实现 。 而 UDP 作为 一 个 极端 的 例子 ， 没 有 实现 带 外 数据 。 在 本 章 中 ， 我 们 只 关注 TCP 的 
带 外 数据 模型 ， 并 提供 众多 例子 说 明 套 接 字 API 如 何 处 理 带 外 数据 ， 并 描述 了 telnet、rlogin 
和 FTP 等 应 用 是 如 何 使 用 带 外 数据 的 。 除 了 这 样 的 远程 非 活 跃 应 用 之 外 ， 几 乎 很 少 有 使 用 到 带 
外 数据 的 地 方 。 


24. TCP 带 外 数据 


TCP 并 没有 真正 的 带 外 数据 ， 不 过 提供 了 我 们 接着 讲解 的 紧急 模式 (urgent mode)。 假 设 一 

个 进程 已 经 往 一 个 TCP 套 接 字 写 出 N 字 节 数 据 , 而 且 TCP 把 这 些 数据 排队 在 该 套 接 字 的 发 送 缓冲 

区 中 , 等 着 发 送 到 对 端 。 图 24-1 展 示 了 这 样 的 套 接 字 发 送 缓冲 区 , 并 且 标 记 了 从 1 到 的 数据 字 节 。 
套 接 字 发 送 缓冲 区 





要 发 送 的 第 一 个 字 节 要 发 送 的 最 后 一 个 字 节 
图 24-1 ”含有 待 发 送 数据 的 套 接 字 发 送 缓冲 区 


该 进程 接着 以 MsG_ooB 标 志 调 用 sena 函 数 写 出 一 个 含有 ASCI 字 符 a 的 单字 节 带 外 数据 ; 

send(fd, "a", 1, MSG OOB); 

TCP 把 这 个 数据 放置 在 该 套 接 字 发 送 缓冲 区 的 下 一 个 可 用 位 置 ， 并 把 该 连接 的 TCP 紧 急 指 
针 Curgent pointer) 设置 成 再 下 一 个 可 用 位 置 。 图 24-2 展 示 了 此 时 的 套 接 字 发 送 缓 冲 区 ， 并 且 把 
带 外 字 节 标记 为 “OOB”。 ao 





要 发 送 的 第 一 个 字 节 inane TCP 紧 急 指针 
图 24-2 NVM APS ORAL SE RNE 
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TCP 紧 急 指 针对 应 一 个 TCP 序 列 号 , 它 是 使 用 MSG_00B 标 志 写 出 的 最 后 一 个 数据 字 节 ( Bp 
带 外 字 节 ) 对 应 的 序列 号 加 1。 正 如 TCPv1 第 292 ~ 296 页 所 述 ， 这 是 一 个 历史 性 的 决断 ， 现 在 
被 所 有 实现 所 模仿 。 只 要 发 送 端 TCP 和 接收 端 TCP 在 TCP 紧 急 指针 的 解释 上 达成 一 致 ， 就 不 会 
有 问题 。 


给 定 如 图 24-2 所 示 的 TCP 套 接 字 发 送 缓冲 区 状态 ， 发 送 端 TCP 将 为 待 发 送 的 下 一 个 分 节 在 
TCP 首 部 中 设置 URG 标 志 ， 并 把 紧急 偏 移 (urgent offset) 字段 设置 为 指向 带 外 字 节 之 后 的 字 节 ， 
不 过 该 分 节 可 能 含 也 可 能 不 含 我 们 标记 为 O0B 的 那个 字 节 。OOB 字 节 是 否 发 送 取 决 于 在 套 接 字 
发 送 缓冲 区 中 先 于 它 的 字 节 数 、TCP 准 备 发 送 给 对 端的 分 节 大 小 以 及 对 端 通告 的 当前 窗口 。 


我 们 使 用 了 “紧急 指针 ”和 “紧急 偏 移 ”这 两 个 术语 。 在 TCP 层 次 上 它们 是 不 同 的 。TCP 
首部 中 的 16 位 值 称 为 紧急 指针 ， 它 必须 加 上 同一 个 首部 中 的 序列 号 字段 才能 获得 32 位 的 紧急 
指针 。 只 有 在 同一 个 首部 中 称 为 URG 标 志 的 位 已 经 设置 的 前 提 下 ，TCP 才 会 检查 紧急 偏 移 。 
从 编程 角度 看 ， 我 们 无 需 担 心 这 个 细节 ， 统 一 指称 TCP 紧 急 指针 就 行 。 


这 是 TCP 紧 急 模 式 的 一 个 重要 特点 : TCP 首 部 指出 发 送 端 已 经 进入 紧急 模式 〈 即 伴随 紧急 
偏 移 的 URG 标 志 已 经 设置 )， 但 是 由 紧急 指针 所 指 的 实际 数据 字 节 却 不 一 定 随同 送出 。 事 实 上 
即使 发 送 端 TCP 因 流量 控制 而 暂停 发 送 数 据 ( 接 收 端的 套 接 字 接 收 缓冲 区 已 满 ， 导 致 其 TCP 向 
发 送 端 TCP 通 告 了 一 个 值 为 0 的 窗口 ), 紧急 通知 照样 不 伴随 任何 数据 地 发 送 CTCPV238 1016 ~ 
1017 页 )， 就 像 我 们 将 在 图 24-10 和 图 24-11 看 到 的 那样 。 这 也 是 应 用 进程 使 用 TCP 紧 急 模 式 〈 即 
带 外 数据 ) 的 一 个 原因 : 即便 数据 的 流动 会 因为 TCP 的 流量 控制 而 停止 ， 紧 急 通 知 却 总 是 无 障 
碍 地 发 送 到 对 端 TCP。 

如 果 我 们 发 送 多 字 节 的 带 外 数据 ， 情 况 又 会 如 何 呢 ? 例如 ; 

send(fd, "abc", 3, MSG_OOB); 

在 这 个 例子 中 , TCP 的 紧急 指针 指 问 最 后 那个 字 节 紧 后 的 位 置 , 也 就 是 说 最 后 那个 字 节 ( 字 
Ric) 被 认为 是 带 外 字 节 。 

至 此 我 们 已 经 讲述 了 带 外 数据 的 发 送 ， 下 面 从 接收 端的 角度 查看 一 下 。 

(1) 当 收 到 一 个 设置 了 URG 标 志 的 分 节 时 ,接收 端 TCP 检 查 紧 急 指 针 ， 确定 它 是 否 指 向 新 的 
带 外 数据 ， 也 就 是 判断 本 分 节 是 不 是 首 个 到 达 的 引用 从 发 送 端 到 接收 端的 数据 流 中 特定 字 节 的 
紧急 模式 分 节 。 发 送 端 TCP 往 往 发 送 多 个 含有 URG 标 志 且 紧急 指针 指向 同一 个 数据 字 节 的 分 节 
《通常 是 在 一 小 段 时 间 内 )。 这 些 分 节 中 只 有 第 一 个 到 达 的 会 导致 通知 接收 进程 有 新 的 带 外 数据 
到 达 。 

(2) 当 有 新 的 紧急 指针 到 达 时 ， 接 收 进程 被 通知 到 。 首先， 内 核 给 接收 套 接 字 的 属 主 进程 发 
送 sIGURG 信 号， 前 提 是 接收 进程 (或 其 他 进程 》 曾 调用 fcnt1 或 ioct1 为 这 个 套 接 字 建 立 了 属 
主 〈 图 7-20)， 而 且 该 属 主 进程 已 为 这 个 信号 建立 了 信和 号 处 理 函 数 。 其 次 ， 如 果 接 收 进程 阻塞 在 
select 调 用 中 以 等 待 这 个 套 接 字 描 述 符 出 现 一 个 异常 条 件 ，select 调 用 就 返回 。 

一 旦 有 新 的 紧急 指针 到 达 , 不 论 由 紧急 指针 指向 的 实际 数据 字 节 是 否 已 经 到 达 接 收 端 TCP， 
这 两 个 潜在 通知 接收 进程 的 手段 就 发 生动 作 。 

只 有 一 个 OOB 标 记 , 如 果 新 的 OOB 字 节 在 旧 的 OOB 字 节 被 读 取 之 前 就 到 达 , 旧 的 OOB 字 节 
会 被 丢弃 。 

(3) 当 由 紧急 指针 指向 的 实际 数据 字 节 到 达 接 收 端 TCP 时 ， 该 数据 字 节 既 可 能 被 拉 出 带 外 ， 
也 可 能 被 留 在 带 内 ， 即 在 线 Cinline) 留存 。so_ooBINLINE 套 接 字 选 项 默认 情况 下 是 禁止 的 ， 
对 于 这 样 的 接收 端 套 接 字 ， 该 数据 字 节 并 不 放 入 套 接 字 接 收 缓冲 区 ， 而 是 被 放 入 该 连接 的 一 个 
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独立 的 单字 节 带 外 缓冲 区 〈TCPv2 第 986 一 988 页 )。 接收 进程 从 这 个 单字 节 缓 冲 区 读 入 数据 的 唯 
一 方法 是 指定 MSG_O0B 标 志 调 用 recv、recvfrom 或 recvmsg。 如 果 新 的 OOB 字 节 在 旧 的 OOB 字 
节 被 读 取 之 前 就 到 达 ， 旧 的 OOB 字 节 会 被 丢弃 。 

然而 如 果 接 收 进程 开启 了 so_ooBINLINE 套 接 字 选 项 , 那么 由 TCP 紧 急 指 针 指 向 的 实际 数据 
字 节 将 被 留 在 通常 的 套 接 字 接收 缓冲 区 中 。 这 种 情况 下 ， 接 收 进程 不 能 指定 xsG_ooB 标 志 读 入 
该 数据 字 节 。 相 反 ， 接 收 进程 通过 检查 该 连接 的 带 外 标记 〈out-of-band mark) 以 获悉 何 时 访问 
到 这 个 数据 字 节 ， 就 像 我 们 将 在 24.3 节 讲述 的 那样 。 

发 生 一 些 错 误 是 可 能 的 。 

(1) 如 果 接 收 进程 请 求 读 入 带 外 数据 〈 通 过 指定 MsG_ooB 标 志 )， 但 是 对 端 尚未 发 送 任何 带 
外 数据 ， 读 入 操作 将 返回 EINVAL。 

(2) 在 接收 进程 已 被 告知 对 端 发 送 了 一 个 带 外 字 节 (通过 sIGURG 或 select 手 段 ) 的 前 提 下 ， 
如 果 接 收 进程 试图 读 入 该 字 节 ， 但 是 该 字 节 尚未 到 达 ， 读 入 操作 将 返回 EwouLDBLock。 接 收 进 
程 此 时 能 做 的 仅仅 是 从 套 接 字 接 收 缓冲 区 读 入 数据 (要 是 没有 存放 这 些 数据 的 空间 ， 可 能 还 得 
丢弃 它们 )， 以 便 在 该 缓冲 区 中 腾 出 空间 ， 继 而 允许 对 端 TCP 发 送出 那个 带 外 字 节 。 

(3) 如 果 接 收 进程 试图 多 次 读 入 同一 个 带 外 字 节 ， 读 入 操作 将 返回 EINAVL。 

(4) 如 果 接 收 进程 已 经 开启 了 so_ooBINLINE 套 接 字 选 项 ， 后 来 试图 通过 指定 Msc_ooB 标 志 
读 入 带 外 数据 ， 读 入 操作 将 返回 EINVaL。 


24.2.1 使 用 srcunc 的 简单 例子 
我 们 现在 给 出 一 个 发 送 和 接收 带 外 数据 的 小 例子 。 图 24-3 给 出 了 发 送 程序 。 


1 #include "unp.h"* 


oob/tcpsend01.c 





2 int 
3 main(int argc, char **argv) 


int sockfd; 


4t 

5 

6 if (argc !- 3) 
7 err quit("usage: tcpsend0l «host» <port#>"); 
8 


sockfd = Tcp connect(argv[1], argv(2]); 


9 Write(sockfd, "123", 3); 

10 printf("wrote 3 bytes of normal data\n"); 
11 sleep(1); 

12 Send(sockfd, "4", 1, MSG OOB); 

13 printf("wrote 1 byte of OOB data\n"); 

14 sleep(1); 

15 Write(sockfd, "56", 2); 

16 printf("wrote 2 bytes of normal data\n"); 
17 sleep(1); 

18 Send(sockfd, "7", 1, MSG_OOB); 

19 printf("wrote 1 byte of OOB data An"); 

20 sleep(1); 

21 Write(sockfd, "89", 2); 

22 printf("wrote 2 bytes of normal data\n"); 
23 sleep(1); 

24 exit (0); 

25 } 


oob/tcpsend0 l.c 





图 24-3 ”简单 的 带 外 发 送 程序 
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该 程序 共 发 送 9 个 字 节 ， 每 个 输出 操作 之 间 有 一 个 1 秒 钟 的 sleep。 间 以 停顿 的 目的 是 让 每 


个 write 或 sena 的 数据 作为 单个 TCP 分 节 在 本 端 发 送 并 在 对 端 接收 。 我 


关 带 外 数据 的 定时 考虑 。 我 们 运行 本 程序 ， 看 到 预期 的 输出 : 
macosx $ tcpsend01 freebsd4 9999 


wrote 
wrote 


wrote 2 bytes of normal data 

wrote 1 byte of OOB data 

wrote 2 bytes of normal data 

图 24-4 给 出 了 接收 程序 。 

1 #include "unp.h" 

2 int listenfd, connfd; 

3 void Sig urg(int); 

4 int 

5 main(int argc, char **argv) 

6 { 

7 int n; 

8 char buff[100]; 

9 if (argc -- 2) 

10 listenfd - Tcp listen(NULL, argv[1], NULL); 
1i else if (argc -- 3) 

12 listenfd - Tcp listen(argv[1], argv[2], NULL) ; 
13 else 

14 err quit("usage: tcprecv01 [ «host» ] «porté»"); 
15 connfd - Accept(listenfd, NULL, NULL); 

16 Signal(SIGURG, sig urg); 

17 Fcntl(connfd, F SETOWN, getpid()); 

18 for $$) 4 

19 if ( (n = Read(connfd, buff, sizeof(buff)-1)) == 0) ( 
20 printf("received EOF\n"); 

21 exit(0); 

22 } 

23 buff[n] = 0; /* null terminate */ 
24 printf("read $d bytes: s\n", n, buff); 

25 ) 

26 ) 

27 void 

28 sig urg(int signo) 

29 ( 

30 int n; 

31 char buff[100]; 

32 printf("SIGURG received\n") ; 

33 n = Recv(connfd, buff, sizeof (buff)-1, MSG OOB); 
34 buff[n] = 0; /* null terminate */ 
35 printf("read %d OOB byte: s\n", n, buff); 

36 } 


3 bytes of normal data 
1 byte of OOB data 








图 24-4 ”简单 的 带 外 接收 程序 





们 将 在 本 章 靠 后 讨论 有 


oM — — — — —oob/teprecv01.c 


oab/teprecv0l.c 
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建立 信号 处 理 函 数 和 套 接 字 属 主 
16-17 ”建立 SIGURG 的 信号 处 理 函 数 ， 使 用 fcnt1 设 置 已 连接 套 接 字 的 属 主 。 


注意 ,我们 直到 accept 返 回 之 后 才 建 立信 号 处 理 函 数 , 这 么 做 会 错过 一 些 以 小 概率 出 现 
的 带 外 数据 ， 它 们 在 TCP 完 成 三 路 握手 之 后 但 在 accept 返 回 之 前 到 达 。 然而 如 果 我 们 在 调用 
accept 之 前 建立 信号 处 理 函 数 并 设置 监听 套 接 字 的 属 主 ( 本 属性 将 传承 给 已 连接 套 接 字 ) ， 
那么 如 果 带 外 数据 在 accept 返 回 之 前 到 达 ， 我 们 的 信号 处 理 函 数 将 没有 真正 的 connfa 值 可 
用 。 如 果 这 种 情形 对 于 应 用 程序 确实 重要 ， 它 就 应 该 把 connfd 初 始 化 为 -1， 在 信号 处 理 函 数 
中 检查 该 值 是 否 为 -1， 藻 为 真 则 简单 地 设置 一 个 标志 ， 供 主 循 环 在 accept 返 回 之 后 检查 。 男 
一 方面 ， 这 可 能 阻塞 accept 调 用 周围 的 信号 ， 但 这 个 问题 属于 我 们 在 20.5 节 中 讨论 过 的 信号 
竞争 状态 的 范畴 . 


18-25 ”本 进程 从 套 接 字 中 读 ， 显 示 由 read 返 回 的 每 个 字符 串 。 发 送 进程 终止 连接 后 ， 接 收 进 
程 随后 终止 。 

SIGURG 处 理 函 数 

27-36 ”我 们 的 信号 处 理 函 数 调 用 printf， 通 过 指定 MsG_ooB 标 志 读 入 带 外 字 节 ， 然 后 显示 返 [618 
回 的 数据 。 注 意 ， 我 们 在 recv 调 用 中 请 求 最 多 100 个 字 节 ， 但 是 我 们 稍 后 看 到 ， 作 为 带 1650 
外 数据 返回 的 只 有 1 个 字 节 。 

正如 早先 所 称 ， 从 信号 处 理 函 数 中 调用 不 安全 的 prinEf 不 被 推荐 . 我 们 这 祥 做 只 是 为 了 
查看 程序 在 干什么 . 


下 面 是 先 运 行 本 接收 程序 ， 接 着 运行 图 24-3 中 的 发 送 程 序 得 到 的 输出 : 


freebsd4 % tcprecv01 9999 
read 3 bytes: 123 

SIGURG received 

read 1 OOB byte: 4 

read 2 bytes: 56 

SIGURG received 

read i OOB byte: 7 

read 2 bytes: 89 
received EOF 


结果 与 我 们 预期 的 一 致 。 发 送 进程 带 外 数据 的 每 次 发 送 产生 递交 给 接收 进程 的 SIGURG 信 
号 ， 后 者 接着 读 入 单个 带 外 字 节 。 


24.2.2 ”使 用 select 的 简单 例子 


我 们 现在 改 用 select 代 替 sTGURG 信 和 号 重新 编写 带 外 接收 程序 ， 如 图 24-5 所 示 。 
15-20 调用 select 等 待 普通 数据 〔〈 读 集合 rset) 或 带 外 数据 (异常 集合 xset )。 每 种 情况 下 
都 显示 接收 的 数据 。 
我 们 先 运行 本 程序 ， 接 着 运行 早先 的 发 送 程序 〈 图 24-3)， 结 果 碰 到 如 下 错误 : 


freebsd4 % tcprecv02 9999 
read 3 bytes: 123 

read 1 OOB byte: 4 

recv error: Invalid argument 


问题 是 select 一 直 指 示 一 个 异常 条 件 ， 直 到 进程 的 读 入 越过 带 外 数据 〈TCPv2 第 530 一 531 
页 )。 同 一 个 带 外 数据 不 能 读 入 多 次 ， 因 为 首次 读 入 之 后 ， 内 核 就 清空 这 个 单字 节 的 缓冲 区 。 再 
次 指定 MSG_o0B 标 志 调 用 recv 时 ， 它 将 返回 EINVAL。 
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oob/tcprecv02.c 
1 #include *unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int listenfd, connfd, n; 
6 char buff [100]; 
7 fd set rset, xset; 
8 if (argc == 2) 
9 listen£d - Tcp listen(NULL, argv[1], NULL); 
10 else if (argc -- 3) 
11 listenfd - Tcp listen(argv[1], argv[2], NULL); 
12 else 
13 err quit("usage: tcprecv02 [ «host» ] <port#>"); 
14 connfd = Accept(listenfd, NULL, NULL); 
15 FD. ZERO (&rset) ; 
16 FD, ZERO (&xset.) ; 
17 for (s: s) { 
18 FD SET(connfd, &rset); 
19 FD SET(connfd, &xset); 
20 Select(connfd « 1, &rset, NULL, &xset, NULL); 
21 if (FD ISSET(connfd, &xset)) ( 
22 n = Recv(connfd, buff, sizeof(buff)-1, MSG_OOB); 
23 buff[n] = 0; /* null terminate */ 
24 printf("read $d OOB byte: $s\n", n, buff); 
25 } 
26 if (FD ISSET(connfd, &rset)) { 
27 if ( (n = Read(connfd, buff, sizeof(buff)-1)) -- 0) ( 
28 printf("received EOF\n"); 
29 exit (0); 
30 } 
31 buff[n] = 0; /* null terminate */ 
32 printf("read $d bytes: %s\n", n, buff); 
33 } 
34 } 
35 } 
oob/teprecv02.c 


图 24-5 (REMH) 使 用 select 得 到 带 外 数据 通知 的 接收 程序 
解决 办 法 是 只 在 读 入 普通 数据 之 后 才 select 异 常 条 件 。 图 24-6 是 图 24-5 的 一 个 修订 版 本 ， 


它 正 确 地 处 理 了 上 述 情形 。 
5 ”声明 一 个 名 为 justreadoob 的 变量 ， 用 于 指示 我 们 是 否 刚 刚 读 过 带 外 数据 。 这 个 标志 
决定 是 否 select 异 常 条 件 。 
26-27 ” 当 设 置 justreadoop 标 志 时 ， 我 们 还 得 在 异常 描述 符 集 中 清除 已 连接 套 接 字 描 述 符 对 
应 的 位 。 


本 程序 现在 可 以 按 预 期 的 方式 工作 了 。 
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oob/tcprecv03.c 








1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4{ 
5 int listenfd, connfd, n, justreadoob = 0; 
6 char buff[100]; 
7 fd set rset, xset; 
8 if (argc -- 2) 
9 listenfd = Tcp listen(NULL, argv[i], NULL); 
10 else if (argc -- 3) 
11 listenfd - Tcp listen(argv[1], argv[2], NULL); 
12 else 
13 err quit("usage: tcprecv03 [ «host» ] <port#>"); 
14 connfd - Accept(listenfd, NULL, NULL); 
15 FD ZERO(&rset); 
16 FD ZERO (&xset); 
17 for (; 2$) t 
18 FD SET(connfd, &rset); 
19 if (justreadoob -- 0) 
20 FD SET(connfd, &xset); 
21 Select (connfd + 1, &rset, NULL, &xset, NULL); 
22 if (FD ISSET(connfd, &xset)) ( 
23 n = Recv(connfd, buff, sizeof(buff)-1, MSG OOB); 
24 buff[n] - 0; * null terminate */ 
25 printf("read td OOB byte: %s\n", n, buff); 
26 justreadoob - 1; 
27 FD CLR(connfd, &xset); 
28 } 
29 if (FD ISSET(connfd, &rset)) { 
30 if ( (n = Read(connfd, buff, sizeof (buff)-1)) == 0) ( 
31 printf ("received EOF\n"); 
32 exit (0); 
33 } 
34 buff[n] = 0; /* null terminate */ 
35 printf("read $d bytes: %s\n", n, buff); 
36 justreadoob - 0; 
37 ) 
38 ) 
39 } 
-——  —— ——————oob/tcprecv03.c 
图 24-6 正确 地 select 异 常 条 件 的 图 24-5 程 序 修订 版 本 = 
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每 当 收 到 一 个 带 外 数据 时 ， 就 有 一 个 与 之 关联 的 带 外 标记 Cout-of-band mark)。 这 是 发 送 
进程 发 送 带 外 字 节 时 该 字 节 在 发 送 端 普 通 数据 流 中 的 位 置 。 在 从 套 接 字 读 入 期 间 ， 接 收 进 程 通 
过 调用 sockatmark 函 数 确定 是 否 处 于 带 外 标记 。 
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#include <sys/socket.h> 





int sockatmark(int sockfd); 
返回 : 若 处 于 带 外 标记 则 为 1， 若 不 处 于 带 外 标记 则 为 0， 若 出 错 则 为 -1 

本 函数 是 POSIX 创 造 的 。POSIX 正 在 把 许多 ioct1 请 求 替换 成 函数 。 

图 24-7 给 出 了 使 用 常见 的 SIOCATMARK ioct1 完 成 的 本 函数 的 一 个 实现 。 











lib/sockatmark.c 








#include "unp.h" 
int 
sockatmark(int fd) 


1 

2 

3 

4 

5 int flag; 
6 if (ioctl(fd, SIOCATMARK, &flag) < 0) 
7 return(-1); 

8 return(flag !- 0); 

9 


lib/sockatmark.c 





图 24-7 使 用 ioct1 实 现 的 sockatmark 函 数 


不 管 接收 进程 在 线 (So_ooBINLINE 套 接 字 选项 ) 还 是 带 外 (MsG_oocB 标 志 ) 接收 带 外 数据 ， 
带 外 标记 都 适用 。 带 外 标记 的 常见 用 法 之 一 是 接收 进程 特殊 地 对 待 所 有 数据 ， 直 到 越过 它 。 


24.3.1 例子 


我 们 现在 给 出 一 个 简单 的 例子 说 明 带 外 标记 的 以 下 两 个 特性 。 

(1) 带 外 标记 总 是 指向 普通 数据 最 后 一 个 字 节 紧 后 的 位 置 。 这 意味 着 ， 如 果 带 外 数据 在 线 接 
收 ， 那 么 如 果 下 一 个 待 读 入 的 字 节 是 使 用 MsG_ooB 标 志 发 送 的 ，sockatmark 就 返回 真 。 而 如 果 
SO_OOBINLINE 套 接 字 选 项 没有 开启 ,那么 , 若 下 一 个 待 读 入 的 字 节 是 跟 在 带 外 数据 后 发 送 的 第 
一 个 字 节 ，sockatmark 就 返回 真 。 

(2) 读 操 作 总 是 停 在 带 外 标记 上 (〈(TCPv2 第 519 一 520 页 )。 也 就 是 说 ， 如 果 在 套 接 字 接 收 缓 
冲 区 中 有 100 个 字 节 , 不 过 在 带 外 标记 之 前 只 有 5 个 字 节 , 而 进程 执行 一 个 请 求 100 个 字 节 的 read 
调用 , 那么 返回 的 是 带 外 标记 之 前 的 5 个 字 节 。 这 种 在 带 外 标记 上 强制 停止 读 操 作 的 做 法 使 得 进 
程 能 够 调用 sockatmark 确 定 缓冲 区 指针 是 否 处 于 带 外 标记 。 

图 24-8 是 我 们 的 发 送 程序 。 它 发 送 3 个 字 节 普通 数据 ，1 个 字 节 带 外 数据 ， 再 跟 1 个 字 节 普通 
数据 。 每 个 输出 操作 之 间 没 有 停顿 。 

图 24-9 是 接收 程序 。 它 既 不 使 用 SIGURG 信 号 也 不 使 用 select。 它 调用 sockatmark 来 确定 
何 时 碰 到 带 外 字 节 。 
设置 so_O0BINLINE 套 接 字 选 项 

13 ”我 们 希望 在 线 接收 带 外 数据 ， 所 以 必须 开启 So_ooBINLINE 套 接 字 选 项 。 但 是 如 果 我 们 

等 到 accept 返 回 之 后 再 在 已 连接 套 接 字 上 开启 这 个 选项 ， 那 时 三 路 握手 已 经 完成 ， 带 
外 数据 也 可 能 已 经 到 达 。 因 此 我 们 必须 在 监听 套 接 字 上 开启 这 个 选项 ， 因 为 我 们 知道 
所 有 套 接 字 选 项 会 从 监听 套 接 字 传 承 给 已 连接 套 接 字 (7.475). 

连接 接受 后 sleep 

14-15 ”接受 连接 之 后 , 接收 进程 sleep 一 段 时 间 以 接收 来 自发 送 进程 的 所 有 数据 。 这么 做 使 得 
我 们 能 够 展示 read 停 在 带 外 标记 上 ， 即 使 套 接 字 接收 缓冲 区 中 已 经 有 额外 数据 也 不 受 
影响 。 
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1 #include "unp.h" 


2 int 

3 main(int argc, char **argv) 

4t 

5 int sockfd; 

6 if (arge != 3) 

7 err quit("usage: tcpsend04 «host» <port#>"); 
8 sockfd = Tcp connect(argv[1], argv[21); 

9 Write(sockfd, "123", 3); 

10 printf("wrote 3 bytes of normal data\n"); 
11 Send(sockfd, "4", 1, MSG OOB); 

12 printf("wrote 1 byte of OOB data\n"); 

13 Write(sockfd, "5", 1); 
14 printf("wrote 1 byte of normal data\n"); 
15 exit (0); 

16 ) 





图 24-8 ”发 送 程序 
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oob/tcpsend04.c 


oob/tcpsend04.c 


一 ———————————— — — ———cob/tcprecv04.c 


1 #include "unp.h" 

2 int 

3 main(int argc, char **argv) 

4 í 

5 int listenfd, connfd, n, on-1; 

6 char buff[100]; 

7 if (argc -- 2) 

8 listenfd - Tcp listen(NULL, argv[1], NULL); 

9 else if (argc == 3) 

10 listenfd = Tcp listen(argv[1], argv(2], NULL); 
11 else 

12 err quit("usage: tcprecv04 [ «host» ] <port#>"); 
13 Setsockopt(listenfd, SOL SOCKET, SO OOBINLINE, &on, sizeof(on)); 
14 connfd - Accept(listenfd, NULL, NULL); 

15 sleep(5); 

16 for (; ; ) í 

17 if (Sockatmark(connfd) ) 

18 printf("at OOB mark\n"); 

19 if ( (n = Read(connfd, buff, sizeof(buff)-1)) == 0) { 
20 printf (“received EOF\n"); 

21 exit (0); 

22 } 
23 buff[n] = 0; /* null terminate */ 
24 printf ("read %d bytes: %s\n", n, buff); 
25 } 
26 } 


图 24-9 ”调用 sockatmark 的 接收 程序 
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读 入 来 自发 送 进程 的 所 有 数据 
16-25 程序 循环 调用 read， 并 显示 收 到 的 数据 。 不 过 在 调用 read 之 前 ， 先 调用 sockatmark 检 
查 缓冲 区 指针 是 否 处 于 带 外 标记 。 
我 们 运行 本 程序 得 到 如 下 输出 : 


freebsd4 $ tcprecv04 6666 
read 3 bytes: 123 

at OOB mark 

read 2 bytes: 45 

recvived EOF 


尽管 接收 进程 首次 调用 read 时 接收 端 TCP 已 经 接收 了 所 有 数据 (因为 接收 进程 调用 了 
sleep)， 但 是 首次 reaq 调 用 因 遇 到 带 外 标记 而 仅仅 返回 3 个 字 节 。 下 一 个 读 入 的 字 节 是 带 外 字 
节 《〈 值 为 4)， 因 为 我 们 早已 告知 内 核 在 线 放 置 带 外 数据 。 


24.3.2 例子 


我 们 现在 给 出 另 一 个 简单 的 例子 ， 用 于 展示 早先 提 到 过 的 带 外 数据 的 另外 两 个 特性 。 

(1) 即使 因为 流量 控制 而 停止 发 送 数据 了 ，TCP 仍 然 发 送 带 外 数据 的 通知 ( 即 它 的 紧急 指 
针 )。 

(2) 在 带 外 数据 到 达 之 前 ， 接 收 进程 可 能 被 通知 说 发 送 进 程 已 经 发 送 了 带 外 数据 (使 用 
SIGURG 信 号 或 通过 select)。 如 果 接 收 进程 接着 指定 MsG_oop 调 用 recv， 而 带 外 数据 却 尚 未 到 
达 ，recv 将 返回 EwouLpBLOCK 错 误 。 

图 24-10 是 发 送 程 序 。 

一 —M————M—— oob/cpsend0s.c 


1 #include "unp.h 


2 int 

3 main(int argc, char **argv) 

4{ 

5 int sockfd, size; 

6 char buff [16384]; 

7 if (argc != 3) 

8 err quit("usage: tcpsend05 «host» <port#>"); 
9 sockfd = Tcp connect(argv[1), argv[2]); 

10 size - 32768; 

11 Setsockopt (sockfd, SOL, SOCKET, SO SNDBUF, &size, sizeof(size)); 
12 Write(sockfd, buff, 16384); 

13 printf(*wrote 16384 bytes of normal data\n"); 

14 sleep(5); 

15 Send(sockfd, "a", 1, MSG OOB); 

16 printf("wrote 1 byte of OOB data\n"); 

17 Write(sockfd, buff, 1024); 

18 printf("wrote 1024 bytes of normal data\n"); 

19 exit (0); 

20 ) 











— ——oob/tcpsend05.c 
图 24-10 ”发 送 程序 


24.3 sockatmark 函数 517 


9-19 ”该 进程 把 它 的 套 接 字 发 送 缓冲 区 大 小 设置 为 32768， 写 出 16384 字 节 的 普通 数据 ， 然 后 
睡眠 5 秒 钟 。 我 们 稍 后 将 看 到 接收 进程 把 它 的 套 接 字 接收 缓冲 区 大 小 设置 为 4096， 因 此 
发 送 进 程 的 这 些 操作 确保 发 送 端 TCP 填 满 接收 端的 套 接 字 接收 缓冲 区 。 发 送 进程 接着 
发 送 单 字 节 的 带 外 数据 ， 后 跟 1024 字 节 的 普通 数据 ， 然 后 终止 。 
图 24-11 给 出 了 接收 程序 。 


1 #include "unp.h" 


M —— —oobr/teprecv05.c 


2 int listenfd, connfd; 
3 void Sig urg(int); 

4 int 

5 main(int argc, char **argv) 
6 { 

7 

8 


int size; 


if (argc == 2) 


9 listenfd = Tcp listen(NULL, argv[{1], NULL); 
10 else if (argc == 3) 
11 listenfd = Tcp listen(argv[1], argv[2], NULL); 
12 else 
13 err quit("usage: tcprecv05 [ «host» ] <port#>"); 
14 size - 4096; 
15 Setsockopt(listenfd, SOL SOCKET, SO RCVBUF, &size, sizeof(size)); 
16 connfd - Accept(listenfd, NULL, NULL); 
17 Signal(SIGURG, sig urg); 
18 Fcntl(connfd, F SETOWN, getpid()); 
19 for (+3) 
20 pause (); 
21 ) 
22 void 
23 sig_urg(int signo) 
24 ( 
25 int n; 
26 char buff[2048]; 
27 printf("SIGURG received\n"); 
28 n = Recv(connfd, buff, sizeof(buff)-1, MSG_OOB); 
29 buff[n] = 0; /* null terminate */ 
30 printf("read $d OOB byte\n", n); 
31 } 





b/tcprecv05.c 
图 24-11 ”接收 程序 


14-20 ”接收 进程 把 监听 套 接 字 接 收 缓冲 区 大 小 设置 为 4096。 连 接 建 立 之 后 ， 这 个 大 小 将 传承 
给 已 连接 套 接 字 。 接 收 进程 接着 accept 连 接 ， 建 立 一 个 sIGURG 信 和 号 处 理 函 数 ， 并 建立 
套 接 字 的 属 主 。 主 控 程 序 然后 在 一 个 无 穷 循环 中 调用 pause。 
22-31 信号 处 理 函 数 调用 recv 读 入 带 外 数据 。 
我 们 先 启 动 接收 进程 ， 接 着 启动 发 送 进程 ， 以 下 是 来 自发 送 进程 的 输出 ; 


macosx $ tcpsend05 freebsd4 5555 
wrote 16384 bytes of normal data 
wrote 1 byte of OOB data 

wrote 1024 bytes of normal data 
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正如 所 期 ， 所 有 这 些 数据 适合 发 送 进程 套 接 字 发 送 缓冲 区 的 大 小 ， 发 送 进程 随后 终止 。 以 
下 是 来 自 接收 进程 的 输出 : 


freebsd4 $ tcprecv05 5555 
SIGURG received 
recv error: Resource temporarily unavailable 


由 我 们 的 err_sys 函 数 显 示 的 出 错 消 息 串 对 应 于 EaAGAIN，EAGAIN 等 同 于 FreeBSD 中 的 
EWOULDBLOCK。 发 送 端 TCP 向 接收 端 TCP 发 送 了 带 外 通知 ， 由 此 产生 递交 给 接收 进程 的 SIGURG 
信号 。 然 而 当 接 收 进程 指定 MsG_ooB 标 志 调 用 recv 时 ， 相 应 带 外 字 节 不 能 读 入 。 

解决 办 法 是 让 接收 进程 通过 读 入 已 排队 的 普通 数据 ， 在 套 接 字 接收 缓冲 区 中 腾 出 空间 。 这 
将 导致 接收 端 TCP 向 发 送 端 通告 一 个 非 零 的 窗口 ， 最 终 允 许 发 送 端 发 送 带 外 字 节 。 


我 们 指出 源 自 Berkeley 的 实现 中 的 两 个 相关 事情 (TCPv2 第 1016 ~ 1017 页 )。 首先 ， 即 使 
套 接 字 发 送 缓 冲 区 已 满 ， 内 核 也 总 能 从 发 送 进程 接受 将 发 送 到 对 端的 一 个 带 外 字 节 。 其 次 ， 
当 发 送 进程 发 送 一 个 带 外 字 节 时 ， 一 个 含有 紧急 通知 的 TCP 分 节 将 被 立刻 发 送 。 所 有 正常 的 
TCP 输 出 检查 (Nagle 算 法 、 无 义 窗口 避免 等 ) 都 被 略 过 ， 


24.3.3 例子 


我 们 的 下 一 个 例子 展示 了 一 个 给 定 TCP 连 接 只 有 一 个 带 外 标记 ， 如 果 在 接收 进程 读 入 某 个 
现 有 带 外 数据 之 前 有 新 的 带 外 数据 到 达 ， 先 前 的 标记 就 丢失 。 

图 24-12 是 发 送 程序 ， 它 与 图 24-8 相 似 ， 增 加 了 用 于 发 送 带 外 数据 的 另 一 个 sendq 调 用 ， 后 跟 
用 于 发 送 普通 数据 的 另 一 个 write 调用 。 





b/tcpsend06.c 

1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd; 
6 if (argc != 3) 
7 err quit("usage: tcpsend06 «host» <port#>"); 
8 sockfd = Tcp connect(argv[1], argv[2]); 
9 Write(sockfd, "123", 3); 
10 printf("wrote 3 bytes of normal data\n"); 
11 Send(sockfd, "4", 1, MSG OOB); 
12 printf("wrote 1 byte of OOB data\n"); 
13 Write(sockfd, "5", 1); 
14 printf("wrote 1 byte of normal data\n"); 
15 Send(sockfd, "6", 1, MSG OOB); 
16 printf("wrote 1 byte of OOB data\n"); 
17 Write(sockfd, "7", 1); 
18 printf("wrote 1 byte of normal data\n"); 
19 exit(0); 
20 ) 

— ————oob/tcpsend06.c 





图 24-12 ” 紧 挨 着 发 送 两 个 带 外 字 节 
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各 个 输出 调用 之 间 没 有 停顿 ， 使 得 所 有 数据 能 够 迅速 地 发 送 到 接收 端 TCP。 
接收 程序 就 是 图 24-9 所 示 的 程序 ， 它 在 接受 连接 之 后 睡眠 5 秒 钟 ， 以 允许 来 自发 送 端的 数据 
到 达 接 收 端 TCP。 以 下 是 接收 进程 的 输出 : 


freebsd4 % tcprecv06 5555 
read 5 bytes: 12345 

at OOB mark 

read 2 bytes: 67 
received EOF 


第 二 个 带 外 字 节 (6) 的 到 来 覆 写 了 第 一 个 带 外 字 节 〈4)》 到 来 时 存放 的 带 外 标记 。 正 像 我 
们 所 说 ， 每 个 TCP 连 接 最 多 只 有 一 个 带 外 标记 。 
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至 此 我 们 使 用 带 外 数据 的 所 有 例子 都 是 简易 的 。 不 幸 的 是 ， 当 我 们 考虑 可 能 出 现 的 定时 间 
题 时 ， 带 外 数据 将 变 得 繁杂 起 来 。 首 先 要 考虑 的 一 点 是 带 外 数据 概念 实际 上 向 接收 端 传达 三 个 
不 同 的 信息 。 

(1) 发 送 端 进入 紧急 模式 这 个 事实 。 接 收 进程 得 以 通知 这 个 事实 的 手段 不 外 乎 sSTGURG 信 和 号 
或 select 调 用 。 本 通知 在 发 送 进 程 发 送 带 外 字 节 后 由 发 送 端 TCP 立 即 发 送 ， 因 为 我 们 在 图 24-11 
中 看 到 ， 即 使 往 接收 端的 任何 数据 发 送 因 流量 控制 而 停止 了 ，TCP 仍 然 发 送 本 通知 。 本 通知 可 
能 导致 接收 端 进入 某 种 特殊 处 理 模 式 ， 以 处 理 接收 的 任何 后 继 数据 。 

(2) 带 外 字 节 的 位 置 ， 也 就 是 它 相对 于 来 自发 送 端 的 其 余数 据 的 发 送 位 置 ， 带 外 标记 。 

(3) 带 外 字 节 的 实际 值 。 既 然 TCP 是 一 个 不 解释 应 用 进程 所 发 送 数据 的 字 节 流 协议 ， 带 外 字 
节 就 可 以 是 任何 8 位 值 。 

对 于 TCP 的 紧急 模式 ， 我 们 可 以 认为 URG 标 志 是 通知 (信息 1)， 紧 急 指针 是 带 外 标记 〈 信 
息 2)， 数 据 字 节 是 其 本 身 〈 信 息 3)。 

与 这 个 带 外 数据 概念 相关 的 问题 有 : (Ca) 每 个 连接 只 有 一 个 TCP 紧 急 指 针 ，(b) 每 个 连接 
只 有 一 个 带 外 标记 ，(c) 每 个 连接 只 有 一 个 单字 节 的 带 外 缓冲 区 〈 该 缓冲 区 只 有 在 数据 非 在 线 
读 入 时 才 需 考虑 )。 我 们 在 图 24-12 中 看 到 ， 新 到 达标 记 覆 写 接收 进程 尚未 碰 到 的 任何 先前 的 标 
记 。 如 果 带 外 数据 是 在 线 读 入 的 ， 那 么 当 新 的 带 外 数据 到 达 时 ， 先 前 的 带 外 字 节 并 未 丢失 ， 不 
过 它们 的 标记 却 因 被 新 的 标记 取代 而 丢失 了 。 

带 外 数据 的 一 个 常见 用 途 体现 在 rlogin 程 序 中 。 当 客户 中 断 运 行 在 服务 器 主机 上 的 程序 时 
(TCPv1 第 393 一 394 页 )， 服 务 器 需要 告知 客户 丢弃 所 有 已 在 服务 器 排队 的 输出 ， 因 为 已 经 排队 
等 着 从 服务 器 发 送 到 客户 的 输出 最 多 有 一 个 窗口 的 大 小 。 服 务 器 向 客户 发 送 一 个 特殊 字 节 ， 告 
知 后 者 清 刷 所 有 这 些 输出 (在 客户 看 来 是 输入 )， 这 个 特殊 字 节 就 作为 带 外 数据 发 送 。 客 户 收 到 
由 带 外 数据 引发 的 SIGURG 信 号 后 ， 就 从 套 接 字 中 读 入 直到 磁 到 带 外 标记 ， 并 丢弃 到 标记 之 前 的 
所 有 数据 。(TCPv1 第 398 一 401 页 有 一 个 如 此 使 用 带 外 数据 的 例子 ， 伴 以 相应 的 tcpdump 输 出 。) 
这 种 情形 下 即使 服务 器 相继 地 快速 发 送 多 个 带 外 字 节 ， 客 户 也 不 受 影 响 ， 因 为 客户 只 是 读 到 最 
后 一 个 标记 为 止 ， 并 丢弃 所 有 读 入 的 数据 。 

总 之 ， 带 外 数据 是 否 有 用 取决 于 应 用 程序 使 用 它 的 目的 。 如 果 目 的 是 告知 对 端 丢 弃 直 到 标 
记 处 的 普通 数据 ， 那 么 丢失 一 个 中 间 带 外 字 节 及 其 相应 的 标记 不 会 有 什么 不 良 后 果 。 但 是 如 果 
不 丢失 带 外 字 节 本 身 很 重要 ， 那 么 必须 在 线 接收 这 些 数 据 。 另 外 ， 作 为 带 外 数据 发 送 的 数据 字 





节 应 该 区 别 于 普通 数据 ， 因 为 当 有 新 的 标记 到 达 时 ， 中 间 的 标记 将 被 履 写 ， 从 而 事实 上 把 带 外 
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字 节 混杂 在 普通 数据 之 中 。 举 例 来 说 ,telnet 在 客户 和 服务 器 之 间 普通 的 数据 流 中 发 送 telnet 
自己 的 命令 ,手段 是 把 值 为 255 的 一 个 字 节 作为 Lelnet 命 令 的 前 缀 字 节 。( 值 为 255 的 单个 字 节 
作为 数据 发 送 需要 2 个 相继 的 值 为 255 的 字 节 。) 这 么 做 使 得 telnet 能 够 区 分 其 命令 和 普通 用 户 
数据 ， 不 过 要 求 客户 进程 和 服务 器 进程 处 理 每 个 数据 字 节 以 寻找 命令 。 
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我 们 现在 为 本 书 早先 讲解 的 回 送 客户 和 服务 器 程序 开发 一 些 简单 的 心 搏 函 数 。 这 些 函数 可 
以 发 现 对 端 主机 或 到 对 端的 通信 路 径 的 过 早 失效 。 

在 给 出 这 些 函 数 之 前 我 们 必须 提出 一 些 警告 。 首 先 ， 有 人 会 想到 使 用 TCP 的 保持 存活 特性 
(SO_KEEPALIVE 套 接 字 选项 ) 来 提供 这 种 功能 ， 然 而 TCP 得 在 连接 已 经 闲置 2 小 时 之 后 才 发 送 一 
个 保持 存活 探测 段 。 意 识 到 这 一 点 以 后 ， 他 们 的 下 一 个 问题 是 如 何 把 保持 存活 参数 改 为 一 个 小 
得 多 的 值 〈 往 往 是 在 秒 钟 的 量 级 )， 以 便 更 快 地 检测 到 失效 。 尽 管 缩短 TCP 的 保持 存活 定时 器 参 
数 在 许多 系统 上 确实 可 行 〈 见 TCPv1 的 附录 E)， 但 是 这 些 参 数 通常 是 按照 内 核 而 不 是 按照 每 个 
套 接 字 维护 的 ， 因 此 改动 它们 将 影响 所 有 开启 该 选项 的 套 接 字 。 另 外 保持 存活 选项 的 用 意 绝 不 
是 这 个 目的 (高 频率 地 轮 询 )。 

其 次 ， 两 个 端 系统 之 间 短 暂 的 连接 性 丢失 并 非 总 是 坏事 。TCP 一 开始 就 设计 成 能 够 对 付 临 
时 断 连 ， 而 源 自 Berkeley 的 TCP 实 现 将 重 传 8 一 10 分 钟 才 放 弃 某 个 连接 。 较 新 的 IP 路 由 协议 〈 例 
如 OSPF ) 能 够 发 现 链接 的 失效 , 并 且 有 可 能 在 短 时 间 内 ( 壁 如 在 秒 钟 量 级 上 ) 启用 候选 的 路 径 。 
因此 应 用 程序 开发 人 员 必须 审查 想 要 引入 心 搏 机 制 的 具体 应 用 ， 确 定 在 没有 听 到 对 端 应 答 的 持 
续 时 间 超 过 5 一 10s 之 后 终止 相应 连接 是 件 好 事 还 是 坏事 。 有 些 应 用 系统 需要 这 种 功能 ， 不 过 大 
多 数 却 并 不 需要 。 

我 们 将 使 用 TCP 的 紧急 模式 周期 地 轮 询 对 端 ， 在 下 面 的 讲解 中 我 们 假设 每 1 秒 钟 轮 询 一 次 ， 
若 持续 5 秒 钟 没有 听 到 对 端 应 答 则 认为 对 端 已 不 再 存活 ， 不 过 这 些 值 可 以 由 应 用 程序 改动 。 图 
24-13 展 示 了 客户 和 服务 器 的 关系 。 
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sig_alrm() i i sig urg() 

( i i { 
If (++cnt>5) exit; i + recv (MSG_OOB) ; 
send (MSG_OOB) ; H send(MSG OOB); 
alarm(1); H cntz0; 

) H } 


sig urg() i ! sig arm() 
( TN { 


recv (MSG_OOB) ; Tf (++cent>5) exit; 
cnt-0; alarm(1); 
è } 


图 24-13 ”使 用 带 外 数据 的 客户 /服务 器 心 搏 机 制 





) 


Q 本 节 为 第 2 版 内 容 ， 保 留 在 此 。 一 一 译 者 注 
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在 这 个 例子 中 , 客户 每 隔 1 秒 钟 向 服务 器 发 送 一 个 带 外 字 节 , 服务 器 收取 该 字 节 将 导致 它 向 
客户 发 送 回 一 个 带 外 字 节 。 每 端 都 需要 知道 对 端 是 否 不 复 存 在 或 者 不 再 可 达 。 客户 和 服务 器 每 1 
秒 钟 递增 它们 的 cnt 变 量 一 次 ， 每 收 到 一 个 带 外 字 节 又 把 该 变量 重 置 为 0。 如 果 该 计数 器 达到 5 
(也 就 是 说 本 进程 已 有 5 秒 钟 没有 收 到 来 自 对 端的 带 外 字 节 ), 那 就 认定 连接 失效 。 当 有 带 外 字 节 
到 达 时 ， 客 户 和 服务 器 都 使 用 sIGURG 信 号 得 以 通知 。 我 们 在 该 图 中 间 指 出 : 数据 、 回 送 数据 和 
带 外 字 节 都 通过 单个 TCP 连 接 交 换 。 

我 们 的 客户 程序 main 函 数 来 自 图 5-4， 没 有 改动 。 我 们 的 str_c1li 函 数 ( 我 们 没有 给 出 ) 与 
图 6-13 的 版 本 相 比 只 有 3 处 简单 的 改动 。 

(1) 在 进入 for 循 环 之 前 ， 调 用 我 们 的 heartbeat_cli 函 数 设 置 客户 的 心 捕 特 性 : 

heartbeat cli(sockfd, 1, 5); 

其 中 第 二 个 参数 是 以 秒 钟 为 单位 的 轮 询 频 率 ， 第 三 个 参数 是 放弃 当前 连接 之 前 应 该 经 历 的 
持续 无 响应 轮 询 次 数 。 

(2) 如 果 select 调 用 返回 EINTR 错 误 ， 我 们 continue 到 循环 开始 处 再 次 调用 select。 注 意 
图 24-13 中 客户 现在 捕获 2 个 信号 : SITGaALRM 和 SIGURG， 因 此 我 们 必须 准备 好 处 理 被 中 断 的 系统 
调用 。 

(3) 我 们 调用 writen 而 不 是 Eputs 往 标准 输出 写 出 回 送 的 文本 行 。 这 么 做 是 因为 我 们 在 捕获 
2 个 信号 ， 它 们 可 能 中 断 慢 系统 调用 ， 而 有 些 版 本 的 标准 IO 函数 库 没 有 正确 地 处 理 被 中 断 的 系 
统 调用 [Kor and Vo 1991 ]. 

图 24-14 给 出 了 为 客户 程序 提供 心 捕 功能 的 3 个 函数 。 

全 局 变量 
2~5 ”前 3 个 变量 是 heartbeat_cli 函 数 参 数 的 副本 : 套 接 字 描述 符 (信号 处 理沙 数 用 它 来 发 
送 和 接收 带 外 数据 )、sIGALRM 的 频率 、 在 客户 认为 服务 器 或 连接 不 复 存活 之 前 处 理 的 
无 服务 器 响应 的 SIGALRM 总 数 。 变量 nprobes 计 量 从 收 到 来 自 服务 器 的 最 后 一 个 应 答 以 
来 处 理 的 SIGALRM 数 目 。 
heartbeat_cli 函 数 
7-20 ”heartbeat_cli 函 数 检查 并 保存 参数 ， 给 SIGURG 和 sIGALRM 建 立信 号 处 理 函数 ， 并 把 
套 接 字 的 属 主 设置 为 本 进程 ID。 执 行 alarm 以 调度 第 一 个 sSTGALRM。 
SIGURG 处 理 函 数 
21-32 本 信号 在 某 个 带 外 通知 到 达 时 产生 。 我 们 尝试 读 入 相应 的 带 外 字 节 ， 不 过 如 果 它 还 没 
有 到 达 (EWoULDBLOCK)， 那 也 没有 关系 。 注 意 ， 我 们 不 采用 在 线 接收 带 外 数据 方式 ， 
因为 这 种 方式 会 干扰 客户 读 取 它 的 正常 数据 。 
既然 服务 器 仍然 存活 着 ， 我 们 把 nprobes 重 置 为 0。 
SIGALRM 处 理 函 数 
33-43 ”本 信号 以 恒定 的 间隔 产生 。 北 增 计数 器 nprobes， 如 果 达 到 maxnprobes， 我 们 就 认定 
服务 器 主机 或 者 已 经 崩 演 ， 或 者 不 再 可 达 。 在 本 例子 中 我 们 简单 地 结束 客户 进程 ， 不 
过 也 可 以 采用 其 他 设计 : 可 以 给 主 控制 循环 发 送 一 个 信号 ， 或 者 给 heartbeat_cli 增 
设 一 个 用 于 指定 一 个 客户 函数 的 参数 ， 当 服务 器 看 来 不 复 存 活 时 调用 该 客户 函数 。 
作为 带 外 数据 发 送 一 个 含有 字符 1 的 字 节 〈 该 值 没 有 任何 隐 含 意义 )， 再 执行 alarm 调 度 下 


一 个 SIGALRM。 
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oob/heartbeatcli.c 
1 #include "unp.h" 
2 static int servtd; 
3 static int nsec; /* &seconds betweeen each alarm */ 
4 static int maxnprobes;  /* #probes w/no response before quit */ 
5 static int nprobes; /* #probes since last server response */ 
6 static void sig urg(int), sig alrm(int); 
7 void 
B heartbeat cli(int servfd arg, int nsec, arg, int maxnprobes arg) 
9 ¢ 
10 servfd = servfd arg; /* set globals for signal handlers */ 
11 if ( (nsec - nsec arg) « 1) 
i nsec - 1; 
13 if ( (maxnprobes - maxnprobes arg) « nsec) 
14 maxnprobes - nsec; 
15 nprobes - 0; 
16 Signal(SIGURG, sig urg): 
17 Fcntl(servfd, F SETOWN, getpid()); 
18 Signal(SIGALRM, sig alrm); 
19 alarm(nsec); 
20 } 
21 static void 
22 sig_urg(int signo) 
23 { 
24 int n; 
25 char c; 
26 if ( (n = recv(servfd, &c, 1, MSG OOB)) < 0) { 
27 if (errno !- EWOULDBLOCK) 
28 err sys("recv error"); 
29 ) 
30 nprobes - 0; /* reset counter */ 
31 return; /* may interrupt client code */ 
32 ) 
33 static void 
34 sig alrm(int signo) 
35 ( 
36 if (++nprobes > maxnprobes) ( 
37 fprintf(stderr, "server is unreachable\n"); 
38 exit (0); 
39 } 
40 Send(servfd, "1", 1, MSG_OOB); 
41 alarm(nsec); 
42 return; /* may interrupt client code */ 
43 ) 
oob/heartbeatcli.c 


图 24-14 ”客户 程序 心 搏 函 数 


我 们 的 服务 器 程序 main 函 数 与 图 5-12 的 一 样 。 我 们 的 str_echo 函 数 与 图 5-3 的 相 比 只 有 1 处 
改动 ， 即 在 for 循 环 前 加 入 为 服务 器 初始 化 心 搏 函数 的 如 下 行 : 


heartbeat serv(sockfd, 1, 5); 


图 24-15 给 出 了 服务 器 程序 的 心 搏 函数 。 
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oob/heartbeatserv.c 
1 #include "unp.h" 
2 static int servfd; 
3 static int nsec; /* #seconds between each alarm */ 
4 static int maxnalarms; /* #alarms w/no client probe before quit */ 
5 static int nprobes; /* #alarms since last client probe */ 
6 static void sig urg(int), sig alrm(int); 
7 void 
8 heartbeat serv(int servfd arg, int nsec arg, int maxnalarms, arg) 
9 ({ 
10 servfd = servfd arg; /* set globals for signal handlers */ 
11 if ( (nsec = nsec arg) < 1) 
12 nsec - 1; 
13 if ( (maxnalarms - maxnalarms arg) « nsec) 
14 maxnalarms - nsec; 
is Signal(SIGURG, sig_urg); 
16 Fcntl(servfd, F SETOWN, getpid()); 
17 Signal(SIGALRM, sig alrm); 
18 alarm(nsec) ; 
19 } 
20 static void 
21 sig_urg(int signo) 
22 { 
23 int n; 
24 char c; 
25 if ( (n = recv(servfd, &c, 1, MSG_OOB)) < 0) { 
26 if (errno !- EWOULDBLOCK) 
27 err sys("recv error"); 
28 } J 
29 Send(servfd, &c, 1, MSG OOB); /* echo back out-of-band byte */ 
30 nprobes - 0; /* reset counter */ 
31 return; /* may interrupt server code */ 
32 ) 
33 static void 
34 sig alrm(int signo) 
35 ( 
36 if (++nprobes > maxnalarms) { 
37 printf("no probes from client\n"); 
38 exit (0); 
39 ) 
40 alarm(nsec) ; 
41 return; /* may interrupt server code */ 
42 ) 
oob/heartbeatserv.c 





图 24-15 ”服务 器 程序 心 搏 函 数 


heartbeat_serv 函 数 


7-19 ”声明 变量 ， 函 数 heartbeat_serv 几 平 与 客户 的 心 捕 初始 化 函数 一 样 。 
SIGURG 处 理 函 数 


20-32 ”服务 器 收 到 一 个 带 外 通知 后 就 尝试 读 入 相应 的 带 外 字 节 。 就 像 客户 一 样 ， 如 果 该 带 外 
字 节 还 没有 到 达 ， 那 也 没有 什么 关系 。 服 务 器 把 读 入 的 带 外 字 节 作为 带 外 数据 回 送 给 
客户 。 注意 , 如 果 recv 返 回 EWOULDBLOCK 错 误 , 那么 自动 变量 c 碰 巧 是 什么 就 回 送 什么 。 
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既然 我 们 不 把 带 外 字 节 的 值 用 于 任何 目的 ， 这 么 处 置 就 不 会 有 问题 。 重 要 的 是 发 送 ] 
字 节 的 带 外 数据 本 身 , 而 不 管 该 字 节 到 底 是 什么 。 既 然 刚 收 到 客户 仍然 存活 着 的 通知 ， 
我 们 把 nprobes 重 置 为 0。 

SIGALRM 处 理 函 数 

33-42 ”递增 nprobes， 如 果 达 到 由 调用 者 指定 的 maxnalarms 值 ， 那 就 终止 服务 器 进程 ， 否 则 
调度 下 一 个 SIGALRM。 
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246 小 结 

TCP 没 有 真正 的 带 外 数据 ， 不 过 提供 紧急 模式 和 紧急 指针 。 一 旦 发 送 端 进入 紧急 模式 ， 紧 
急 指 针 就 出 现在 发 送 到 对 端的 分 节 中 的 TCP 首 部 中 。 连 接 的 对 端 收 取 该 指针 是 在 告知 接收 进程 
发 送 端 已 经 进入 紧急 模式 ， 而 且 该 指针 指向 紧急 数据 的 最 后 一 个 字 节 。 然 而 所 有 数据 的 发 送 仍 
然 受 TCP 正 常 的 流量 控制 支配 。 

套 接 字 API 把 TCP 的 紧急 模式 映射 成 所 谓 的 带 外 数据 。 发 送 进程 通过 指定 MsG_oOoB 标 志 调 用 
send 让 发 送 端 进入 紧急 模式 。 该 调用 中 的 最 后 一 个 数据 字 节 被 认为 是 带 外 字 节 。 接 收 端 TCP 收 
到 新 的 紧急 指针 后 , 或 者 通过 发 送 sSIGURG 信 号 , 或 者 通过 由 select 返 回 套 接 字 有 异常 条 件 待 处 
理 的 指示 ， 让 接收 进程 得 以 通知 。 默 认 情 况 下 ， 接 收 端 TCP 把 带 外 字 节 从 普通 数据 流 中 取出 存 
放 到 自己 的 单字 节 带 外 缓冲 区 ， 供 接收 进程 通过 指定 MsG_ooB 标 志 调 用 recv 读 取 。 接 收 进程 也 
可 以 开启 So_ooBINLINE 套 接 字 选项 ， 这 种 情况 下 ， 带 外 字 节 被 留 在 普通 数据 流 中 。 不管 接收 进 
程 使 用 哪 种 方法 读 取 带 外 字 节 ， 套 接 字 层 都 在 数据 流 中 维护 一 个 带 外 标记 ， 并 且 不 允许 单个 输 
入 操作 读 过 这 个 标记 。 接 收 进程 通过 调用 sockatmark 函 数 确定 它 是 否 已 经 到 达 该 标记 。 

带 外 数据 未 被 广泛 地 使 用 。telnet 和 rlogin 使 用 它 ，FTP 也 使 用 它 ， 它 们 使 用 带 外 数据 是 
为 了 通知 远 端 有 异常 情况 〈 如 客户 中 断 ) 发 生 ， 而 且 服务 器 丢弃 带 外 标记 前 接收 的 所 有 输入 。 
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习题 


24.4 在 如 下 单个 函数 调用 
send(fd, "ab", 2, MSG OOB); 
和 如 下 两 个 函数 调用 


send(fd, "a", 1, MSG OOB); 
send(fd, "b", 1, MSG_OOB); 


之 间 存 在 差异 吗 ? 
242 重新 编写 图 24-6 中 的 程序 ， 改 用 pol1 代 替 select。 


> E: zr 
信号 驱动 式 1/O 





25.1 概述 


信和 号 驱动 式 1O 是 指 进程 预先 告知 内 核 ， 使 得 当 某 个 描述 符 上 发 生 某 事 时 ， 内 核 使 用 信号 通 
知 相关 进程 。 它 在 历史 上 曾 被 称 为 措 步 JO Casynchronous IO)， 不 过 我 们 讲解 的 信号 驱动 式 IO 
不 是 真正 的 异步 JO。 后 者 通常 定义 为 进程 执行 WO 系统 调用 (譬如 读 或 写 ) 告知 内 核 启 动 某 个 LO 
操作 ， 内 核 启动 WO 操作 后 立即 返回 到 进程 。 进 程 在 LO 操作 发 生 期 间 继 续 执行 。 当 操作 完成 或 
遇 到 错误 时 , 内 核 以 进程 在 VO 系统 调用 中 指定 的 某 种 方式 通知 进程 。 我 们 已 在 6.2 节 比较 了 通常 
可 用 的 各 种 1/O 类 型 ， 并 指出 了 信号 驱动 式 /O 和 异步 WO 之 间 的 差异 。 

注意 ， 我 们 在 第 16 章 讲解 过 的 非 阻塞 式 1O 同 样 不 是 异步 JO。 对 于 非 阻塞 式 MO， 内 核 一 旦 
启动 IO 操作 就 不 像 异 步 JO 那 样 立 即 返 回 到 进程 ， 而 是 等 到 IO 操作 完成 或 遇 到 错误 ， 内 核 立 即 
返回 的 唯一 条 件 是 IO 操作 的 完成 不 得 不 把 进程 投入 睡眠 ， 这 种 情况 下 内 核 不 启动 TO 操作 。 


POSIX 通 过 aio_XXX 浮 数 提 供 真正 的 异步 JO 这 些 函 数 允许 进程 指定 1/O 操 作 完 成 时 是 
否 由 内 核 产生 信号 以 及 产生 什么 信号 。 


源 自 Berkeley 的 实现 使 用 SIGIO 信 号 支持 套 接 字 和 终端 设备 上 的 信号 驱动 式 WO。SVR4 使 用 
sIGPOLL 信 号 支持 流 设备 上 的 信号 驱动 式 /O，SsIGPOLL 因 而 等 价 于 SIGIO。 


25.2 ” 套 接 字 的 信号 驱动 式 VO 


针对 一 个 套 接 字 使 用 信号 驱动 式 WO〈sIGI0) 要求 进程 执行 以 下 3 个 步骤 。 

(1) 建立 sIGIO 信 号 的 信号 处 理 函数 。 

(2) 设置 该 套 接 字 的 属 主 ， 通 常 使 用 fcnt1 的 F_sSETOWN 命 令 设置 (图 7-20)。 

(3) 开启 该 套 接 字 的 信号 驱动 式 /O， 通 常 通过 使 用 fcnt1 的 F_SETFL 命 令 打 开 O_ASYNC 标 志 
完成 (图 7-20)。 


O_ASYNC 标 志 是 相对 较 晚 加 到 POSIX 规 范 中 的 。 支 持 该 标志 的 系统 仍 不 多 见 ， 我 们 在 图 
25-4 中 疏 用 ioct1 的 FIOASYNC 请 求 代 为 开启 信号 驱动 式 /JO。 注 意 POSIX 选 用 的 名 字 并 不 恰 
3: 选用 O_SITGIO 作 为 这 个 标志 的 名 字 也 许 更 好 些 。 

我 们 应 该 在 设置 套 接 字 属 主 之 前 建立 信号 处 理 函 教 .在 源 自 Berkeley 的 实现 中 , 这 两 个 步 
又 的 函数 调用 顺序 无 关 紧 要 ， 因 为 SIGIO 的 默认 行为 是 忽略 该 信号 。 要 是 我 们 斯 倒 这 两 个 函 
数 调用 的 顺序 ， 那 么 在 调用 fcnt1 之 后 但 在 调用 signal 之 前 有 较 小 的 机 会 产生 SIGIO 信 号 ; 
若 真如 此 ， 该 信号 只 是 被 丢弃 。 然 而 在 SVR4 中 ， 头 文件 <sys/signal.h> 把 SIGIO 定 义 为 
SIGPOLL， 而 SLGPOLL 的 默认 行为 是 终止 进程 。 因 此 在 SVR4 中 ， 我 们 必须 先 安装 信号 处 理 函 
数 ， 再 设置 套 接 字 属 主 。 
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尽管 很 容易 把 一 个 套 接 字 设 置 成 以 信号 驱动 式 JO 模 式 工 作 , 确定 哪些 条 件 导致 内 核 产 生 递 
交 给 套 接 字 属 主 的 sTGIo 信 和 号 却 殊 非 易 事 。 这 种 判定 取决 于 支撑 协议 。 


25.2.1 对 于 UDP 套 接 字 的 SIGIO 信号 


在 UDP 上 使 用 信号 驱动 式 /O 是 简单 的 。sIGIO 信 号 在 发 生 以 下 事件 时 产生 : 

e 数据 报到 达 套 接 字 ; 

。 套 接 字 上 发 生 异 步 错误 。 

因此 当 捕获 对 于 某 个 UDP 套 接 字 的 SITGIo 信 号 时 ， 我 们 调用 recvfrom 或 者 读 入 到 达 的 数据 
报 ， 或 者 获取 发 生 的 异步 错误 。 我 们 已 在 8.9 节 就 UDP 套 接 字 讨论 过 异步 错误 ， 从 中 知道 发 生 异 
步 错 误 的 前 提 是 UDP 套 接 字 已 连接 。 


这 两 个 条 件 下 ，SIGIO 信 号 通过 调用 sorwakeup 产 生 ( 见 TCPv2 第 775、779 页 及 784 
页 )。 


25.2.2 WF TCP 套 接 字 的 SIGIO 信和 号 


不 幸 的 是 ， 信 和 号 驱动 式 HO 对 于 TCP 套 接 字 近乎 无 用 。 问 题 在 于 该 信号 产生 得 过 于 频繁 ， 并 
且 它 的 出 现 并 没有 告诉 我 们 发 生 了 什么 事件 。 正 如 TCPv2 第 439 页 所 注 ， 下 列 条 件 均 导致 对 于 一 
个 TCP 套 接 字 产 生 sIGIO 信 号 (假设 该 套 接 字 的 信号 驱动 式 VO 已 经 开启 ): 

e 监听 套 接 字 上 某 个 连接 请 求 已 经 完成 ; 

e 某 个 断 连 请 求 已 经 发 起 ; 

e. 某 个 断 连 请 求 已 经 完成 ; 

e 某 个 连接 之 半 已 经 关闭 ; 

e 数据 到 达 套 接 字 ; 

e 数据 已 经 从 套 接 字 发 送 走 〈 即 输出 缓冲 区 有 空闲 空间 ); 

e 发 生 某 个 异步 错误 。 

举例 来 说 ， 如 果 一 个 进程 既 读 自 又 写 往 一 个 TCP 套 接 字 ， 那 么 当 有 新 数据 到 达 时 或 者 当 以 
前 写 出 的 数据 得 到 确认 时 ，sIGIO 信 号 均 会 产生 ， 而 且 信 号 处 理 函 数 中 无 法 区 分 这 两 种 情况 。 
如 果 sIGIO 用 于 这 种 数据 读 写 情 形 ， 那 么 TCP 套 接 字 应 该 设置 成 非 阻塞 式 ， 以 防 read 或 write 
发 生 阻塞 。 我 们 应 该 考虑 只 对 监听 TCP 套 接 字 使 用 STGTO， 因 为 对 于 监听 套 接 字 产 生 SIGIo 的 唯 
一 条 件 是 某 个 新 连接 的 完成 。 

作者 能 够 找到 的 信号 驱动 式 JO 对 于 套 接 字 的 唯一 现实 用 途 是 基于 UDP 的 NTP 服 务 器 程序 。 
服务 器 主 循 环 接收 来 自 客户 的 一 个 请 求 数据 报 并 发 送 回 一 个 应 答 数 据 报 。 然 而 对 于 每 个 客户 请 
求 ， 其 处 理工 作 量 并 非 可 以 忽略 〈 远 比 我 们 简单 地 回 射 服务 器 多 )。 对 服务 器 而 言 ， 重 要 的 是 为 
每 个 收取 的 数据 报 记 录 精 确 的 时 间 难 ， 因 为 该 值 将 返 送 给 客户 ， 由 客户 用 于 计算 到 服务 器 的 
RITT。 图 25-1 展 示 了 构建 这 样 的 UDP 服务 器 的 两 种 方式 。 

大 多 数 UDP 服 务 器 (包括 第 8 章 中 的 回 射 服务 器 ) 都 设计 成 图 中 左 侧 所 示 的 方式 ， 不 过 NTP 
服务 器 却 采 用 右 侧 所 示 的 技巧 ， 当 一 个 新 的 数据 报到 达 时 ，sIGIO 处 理 函 数 读 入 该 数据 报 ， 同 
时 记录 它 的 到 达 时 刻 ， 然 后 将 它 置 于 进程 内 的 另 一 个 队列 中 ， 以 使 主 服务 器 循环 移 走 并 处 理 。 
尽管 这 个 技巧 让 服务 器 代码 变 复 杂 了 ， 却 为 到 达 数 据 报 提供 了 精确 的 时 间 戳 。 


回顾 图 22-4， 我 们 知道 进程 可 以 通过 设置 TP_RECVDSTRDDR 套 接 字 选项 获取 所 收取 UDP 
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数据 报 的 目的 地 址 。 可 能 有 人 会 争论 说 ， 对 于 所 收取 UDP 数据 报应 该 同时 返回 另外 两 个 信息 ， 
接收 接口 指示 ( 如果 主机 采用 普遍 的 弱 端 系统 模型 ， 那 么 接收 接口 和 目的 地 址 可 能 不 一 致 ) 
和 数据 报到 达 时 刻 。 

对 于 IPv6，ITPV6_PKTINFO 套 接 字 选项 (22.8 节 ) 返回 接收 接口 . 对 于 IPv4, 我 们 已 在 22.2 
节 讨 论 过 IP_RECVIE 套 接 字 选项 。 

FreeBSD 还 提供 SO_TIMESTAMP 套 接 字 选 项 , 它 在 一 个 timeval 结 构 中 以 辅助 数据 的 形式 
返回 数据 报 的 接收 时 刻 。Linux 则 提供 SIOCGSTAMP ioct1， 它 返回 一 个 含有 数据 报 接收 时 刻 
的 timeval 结 构 。 





图 25-1 构建 一 个 UDP 服务 器 的 两 种 方式 


我 们 现在 给 出 一 个 类 似 图 25-1 右 侧 的 例子 ， 一 个 使 用 STGIo 信 和 号 接收 到 达 数 据 报 的 UDP 服 
务 器 程序 。 
客户 程序 就 是 图 8-7 和 图 8-8， 没 有 任何 改动 。 服 务 器 程序 main 函 数 与 图 8-3 的 一 样 。 我 们 做 
的 唯一 修改 是 对 ac_echo 函 数 ， 将 由 接 下 来 的 4 幅 图 共同 给 出 。 图 25-2 给 出 了 全 局 声明 。 
已 收取 数据 报 队列 
3-12 ”SIGIO 信 号 处 理 函 数 把 到 达 的 数据 报 放 入 一 个 队列 。 该 队列 是 一 个 DG 结构 数组 , 我 们 把 
它 作为 一 个 环形 缓冲 区 处 理 。 每 个 DG 结构 包括 指向 所 收取 数据 报 的 一 个 指针 、 该 数据 
报 的 长 度 、 指 向 含有 客户 协议 地 址 的 某 个 套 接 字 地 址 结构 的 一 个 指针 、 该 协议 地 址 的 
大 小 。 静 态 分 配 QsIzE 个 DG 结构 ， 我 们 将 在 图 25-4 中 看 到 ，adg_echo 函 数 调用 malloc 
动态 分 配 所 有 数据 报 和 套 接 字 地 址 结构 的 内 存 空间 。 我 们 还 分 配 一 个 稍 后 解释 的 诊断 
用 计数 器 cntread。 图 25-3 展 示 了 这 个 DG 结构 数组 ， 其 中 假设 第 一 个 元 素 指向 一 个 150 
字 节 的 数据 报 ， 与 它 关 联 的 套 接 字 地 址 结构 长 度 为 16。 
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1 #include "unp.h" 

2 static int  sockfd; 

3 #define QSIZE 8 /* 
4 #define MAXDG 4096 /* 
5 typedef struct { 

6 void *dg_data; /* 
7 size_t dg_len; /* 
8 struct sockaddr  *dg sa; /* 
9 socklen_t dg_salen; /* 
10 } DG; 

11 static DG dg(QSIZE]; /* 
12 static long cntread[QSIZE+1]; /* 
13 static int iget; /* 
14 static int iput; £* 
15 static int nqueue; /* 
16 static socklen t clilen; y* 
17 static void sig io(int); 


18 static 





void sig hup(int); 


sigio/dgecho01.c 


size of input queue */ 
max datagram size */ 


ptr to actual datagram */ 

length of datagram */ 

ptr to sockaddr{} w/client's address */ 
length of sockaddr() */ 


queue of datagrams to process */ 
diagnostic counter */ 


next one for main loop to process */ 

next one for signal handler to read into */ 
* on queue for main loop to process */ 

max length of sockaddr() */ 


sigio/dgecho01.c 


图 25-2 ”全 局 声明 


[ ds data 









PS Ca] 
16 
dg [1] 
dg [QSIZE-1] 
图 25-3 ”用 于 存放 所 收取 数据 报 及 其 套 接 字 地 址 结构 的 数据 结构 
数组 下 标 
663] is-15 iget 是 主 循环 将 处 理 的 下 一 个 数组 元 素 的 下 标 ，iput 是 信号 处 理 函 数 将 存放 到 的 下 一 
667 个 数组 元 素 的 下 标 ，nqueue 是 队列 中 供 主 循环 处 理 的 数据 报 的 总 数 。 
图 25-4 给 出 了 主 服务 器 循环 ， 即 dag_echo 函 数 。 
初始 化 已 接收 数据 报 队列 


27-32 ”把 套 接 字 描 述 符 保存 在 一 个 全 局 变量 中 ， 因 为 信号 处 理 函 数 需 要 它 。 初 始 化 已 接收 数 
据 报 队 列 。 
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sigio/dgecho01.c 


19 void 

20 dg echo(int sockfd arg, SA *pcliaddr, socklen t clilen arg) 

21 { 

22 int i; 

23 const int on = 1; 

24 sigset_t zeromask, newmask, oldmask; 

25 sockfd = sockfd_arg; 

26 clilen = clilen_arg; 

27 for (i = 0; i < QSIZE; i++) { /* init queue of buffers */ 
28 dglil.dg data = Malloc(MAXDG); 

29 dg[i].dg sa = Malloc(clilen); 

30 dglil.dg salen - clilen; 

31 ) 

32 iget - iput - nqueue - 0; 

33 Signal(SIGHUP, sig hup); 

34 Signal(SIGIO, sig. io); 

35 Fcntl(sockfd, F SETOWN, getpid()); 

36 Ioctl(sockfd, FIOASYNC, &on); 

37 Xoctl(sockfd, FIONBIO, &on); 

38 Sigemptyset (&zeromask) ; /* init three signal sets */ 
39 Sigemptyset (&oldmask) ; 

40 Sigemptyset (&newmask) ; 

41 Sigaddset (&newmask, SIGIO); /* signal we want to block */ 
42 Sigprocmask(SIG BLOCK, &newmask, &oldmask); 

43 for (;: : ) ( 

44 while (nqueue == 0) 

45 sigsuspend (&zeromask) ; /* wait for datagram to process */ 
46 /* unblock SIGIO */ 

47 Sigprocmask(SIG SETMASK, &oldmask, NULL); 

48 Sendto(sockfd, dg[iget].dg data, dg[iget].dg len, 0, 
49 dg[iget].dg sa, dg[iget].dg salen); 

50 if (++iget »- QSIZE) 

51 iget - 0; 

52 /* block SIGIO */ 

53 Sigprocmask(SIG BLOCK, &newmask, &oldmask); 

54 nqueue--; 

55 ) 

56 ) 


sigio/dgecho01.c 
图 25-4 dg_echo 函 数 ， 服 务 器 主 处 理 循环 


建立 信号 处 理 函 数 并 设置 套 接 字 标 志 
33-37 “为 SIGHUP( 用 于 诊断 目的 ) 和 SIGIO 建 立信 号 处 理 函 数 。 使 用 fcnt1 设 置 套 接 字 的 属 主 ， 
使 用 ioct1 设 置信 号 驱动 和 非 阻 塞 式 IO 标志 。 
我 们 早先 提 到 过 ，fcnt1 的 O_ASYNC 标 志 是 POSIX 的 信号 驱动 式 HD 指 定 方式 ， 不 过 由 于 

大 多 数 系 统 还 不 支持 它 ， 我 们 改 用 ioct1 取 代 。 尽管 大 多 数 系统 确实 支持 使 用 fcnt1 的 
O_NONBLOCK 标 志 设 置 非 阻塞 式 HO， 在 这 儿 我 们 仍然 给 出 ioct1 方 法 。 

初始 化 信号 集 

38-41 初始 化 三 个 信号 集 : zeromask (从 不 改变 )、oldmask (记录 我 们 阻塞 sIGIo 时 原来 的 
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信和 号 掩 码 ) 和 newmask。 使 用 sigaddset 打 开 newmasx 中 与 SIGIO 对 应 的 位 。 
阻塞 srGIO 并 等 待 有 事 可 做 
42-45 ”调用 sigprocmask 把 进程 的 当前 信号 抢 码 保存 到 olGmask 中 , 然后 把 newmask 逻 辑 或 到 
当前 信号 掩 码 , 这 将 阻塞 sIGIO 并 返回 当前 信号 掩 码 。 接 着 进入 for 循 环 , 并 测试 nqueue 
计数 器 。 只 要 该 计数 器 为 0, 进程 就 无 事 可 做 , 这 时 我 们 可 以 调用 sigsuspend。 该 POSIX 
函数 先 内 部 保存 当前 信和 号 掩 码 ， 再 把 当前 信号 掩 码 设置 为 它 的 参数 (zeromask)。 既 
然 zeromask 是 一 个 空 信号 集 ， 因 而 所 有 信和 号 都 被 开通 。sigsuspend 在 进程 捕获 一 个 
信号 并 且 该 信号 的 处 理 函 数 返 回 之 后 才 返 回 。( 它 是 一 个 不 寻常 的 函数 , 因为 它 总 是 返 
回 EINTR 错 误 )。 在 返回 之 前 sigsuspend 总 是 把 当前 信和 号 掩 码 恢 复 为 调用 时 刻 的 值 , 在 
本 例子 中 就 是 newmask 的 值 ， 从 而 确保 sigsuspena 返 回 之 后 sSTGIo 继 续 被 阻塞 。 这 是 
我 们 可 以 测试 计数 器 nqueue 的 理由 , 因为 我 们 知道 测试 它 时 sIGIo 信 号 不 可 能 被 递交 。 
要 是 我 们 在 测试 nqueue 这 个 由 主 循环 和 信号 处 理 函 数 共享 的 变量 时 SIGIO 未 被 阻塞 ， 那 
么 会 发 生 什么 呢 ? 我 们 可 能 测试 nqueue 时 发 现 它 为 0， 但 是 刚 测试 完毕 SIGIO 信 号 就 递交 了 ， 
导致 nqueue 被 设置 为 1 ,我 们 接着 调用 sigsuspend 进 入 睡眠 ,这 样 实际 上 就 错过 了 这 个 信号 。 
除非 另 有 信号 发 生 ， 否 则 我 们 将 永远 不 能 从 sigsuspend 调 用 中 被 唤醒 。 这 一 点 类 似 我 们 在 
20.5 节 讲解 过 的 竞争 状态 。 


解 阻塞 sIGIO 并 发 送 应 答 
46-51 调用 sigprocmask 把 进程 的 信号 掩 码 设置 为 先前 保存 的 值 (oldmask), 从 而 解除 SIGIO 
的 阻塞 。 然后 调用 sendto 发 送 应 答 。 递 增 iget 下 标 ， 若 其 值 等 于 DG 结构 数组 元 素数 目 
则 将 其 值 置 回 0， 因 为 我 们 把 该 数组 作为 环形 缓冲 区 对 待 。 注 意 : 修改 iget 时 我 们 不 必 
阻塞 SrGIO， 因 为 只 有 主 循环 使 用 这 个 下 标 ， 信 号 处 理 函 数 从 不 改动 它 。 
阻塞 sIGIO 
52-54 ”阻塞 sIGIO， 弟 减 nqueue。 修 改 nqueue 时 我 们 必须 阻塞 sSIGIO， 因 为 它 是 主 循环 和 信 
号 处 理 函 数 共同 使 用 的 变量 。 我 们 在 循环 顶部 测试 nqueue 时 也 需要 sIGIo 阻 塞 着 。 
男 一 个 手段 是 干脆 去 掉 for 循 环 内 的 两 个 sigprocmask 调 用 ， 省 得 解 阻塞 sIGIO 后 又 阻塞 
它 。 这 么 做 的 问题 是 执行 整个 循环 期 间 sIGIo 一 直 阻 塞 着 ， 从 而 降低 了 信号 处 理 函 数 的 及 时 性 。 
数据 报 不 应 该 因为 如 此 变动 而 丢失 (假设 套 接 字 接 收 缓冲 区 足够 大 )， 但 是 sIGIO 信 号 向 进程 的 
递交 将 在 整个 阻塞 期 间 一 直 被 拖延 。 编 写 执行 信号 处 理 的 应 用 程序 时 ， 努 力 目标 之 一 应 该 是 尽 
可 能 地 减少 阻塞 信号 的 时 间 。 
图 25-5 给 出 的 是 sTcro 的 信号 处 理 函 数 。 
编写 本 信号 处 理 函 数 时 我 们 遇 到 的 问题 是 POSIX 信 号 通常 不 排队 。 这 一 点 意味 着 如 果 我 们 
在 信号 处 理 函 数 中 执行 《期间 内 核 确 保 该 信号 被 阻塞 )， 期 间 该 信号 又 发 生 了 2 次 ， 那 么 它 实 际 
只 被 递交 1 次 。 


POSIX 提 供 一 些 排队 的 实时 信号 ， 不 过 诸如 STGIO 等 其 他 信号 通常 不 排队 。 


让 我 们 考虑 下 述 情形 。 一 个 数据 报到 达 导 致 sIGIo 被 递交 。 它 的 信号 处 理 函 数 读 入 该 数据 
报 并 把 它 放 到 供 主 循环 读 取 的 队列 中 。 然 而 在 信号 处 理 函 数 执行 期 间 ， 另 有 两 个 数据 报到 达 ， 
导致 SIGIO 再 产生 两 次 。 由 于 SIGIO 被 阻塞 ， 当 它 的 信号 处 理 函数 返回 时 ， 该 处 理 函 数 仅仅 再 被 
调用 一 次 。 该 信号 处 理 函 数 的 第 二 次 执行 读 入 第 二 个 数据 报 ， 第 三 个 数据 报 则 仍然 留 在 套 接 字 
接收 队列 中 。 第 三 个 数据 报 被 读 入 的 前 提 条 件 是 有 第 四 个 数据 报到 达 。 当 第 四 个 数据 报到 达 时 ， 
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被 读 入 并 放 到 供 主 循环 读 取 的 队列 中 的 是 第 三 个 而 不 是 第 四 个 数据 报 。 








sigio/dgecho01.c 

57 static void 
58 sig io(int signo) 
59 ( 
60 ssize t len; 
61 int nread; 
62 DG *ptr; 
63 for (nread = 0; ; ) { 
64 if (nqueue »- QSIZE) 
65 err quit("receive overflow"); 
66 ptr = &dg[iput]; 
67 ptr-»dg salen - clilen; 
68 len = recvfrom(sockfd, ptr-»dg, data, MAXDG, 0, 
69 ptr-»dg sa, &ptr-»dg salen); 
70 if (len < 0) ( 
71 if (errno -- EWOULDBLOCK) 
72 break; /* all done; no more queued to read */ 
73 else 
74 err sys("recvfrom error"); 
75 } 
76 ptr-»dg len = len; 
77 nread++; 
78 nqueue++; 
79 if (++iput >= QSIZE) 
80 iput = 0; 
81 } à 
B2 cntread [nread] ++; /* histogram of # datagrams read per signal */ 
83 

j sigio/dgecho01.c 


fA25-5 SITGIO 处 理 函 数 


既然 信号 是 不 排队 的 , 开启 信号 驱动 式 JO 的 描述 符 通常 也 被 设置 为 非 阻 寨 式 。 这 个 前 提 下 ， 
我 们 把 sTGro 信 和 号 处 理 函 数 编写 成 在 一 个 循环 中 执行 读 入 操作 ， 直 到 该 操作 返回 EwoULDBLOCK 
时 才 结 束 循环 。 
检查 队列 溢出 
64-65 ”如果 DG 结构 数组 队列 已 满 ， 进 程 就 终止 。 当 然 处 理 这 种 情况 另 有 更 合适 的 方法 《例如 
分 配额 外 的 缓冲 区 )， 不 过 就 我 们 的 简单 例子 不 如 干脆 终止 进程 。 
读 入 数据 报 
66-76 在 非 阻塞 套 接 字 上 调用 recvfrom。 下 标 为 iput 的 数组 元 素 用 于 存放 读 入 的 数据 报 。 如 
果 没 有 可 读 的 数据 报 ， 那 就 preak 出 for 循 环 。 


递增 计数 器 和 下 标 
77-80 ”nread 是 一 个 计量 每 次 信号 递交 读 入 数据 报 数目 的 诊断 计数 器 。nqueue 是 有 待 主 循环 
处 理 的 数据 报 数 目 。 


82 在 信号 处 理 函 数 返 回 之 前 ， 递 增 与 每 次 信号 递交 读 入 数据 报 数目 对 应 的 计数 器 。 当 
SIGHUP 信 和 号 被 递交 时 ， 我 们 在 网 25-6 中 将 这 个 计数 器 数组 的 内 容 显示 为 诊断 信息 。 
最 后 一 个 函数 是 SIGHUP 信 号 处 理 函 数 (图 25-6)， 它 显示 cntreaq 数 组 的 内 容 。 该 数组 统计 
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以 每 次 读 入 数据 报 数目 为 下 标的 信号 递交 次 数 。 


sigio/dgecho01.c 

84 static void 
85 sig hup(int signo) 
86 ( 
87 int i; 
88 for (i = 0; i <= QSIZE; i++) 
89 printf ("cntread(%d] = tld\n", i, cntread[i]); 
90 } 

一 ——— — — — — —— sigio/dgecho01.c 





图 25-6 ”SIGHUP 信 和 号 处 理 函 数 


em 为 了 说 明 信 和 号 是 不 排队 的 ,并且 除了 设置 套 接 字 的 信号 驱动 式 VO 标 志 之 外 ,还 必须 把 套 接 

6| 字 设 置 为 非 阻塞 式 , 我 们 与 6 个 客户 一 道 运行 本 服务 器 。 每 个 客户 发 送 3645 行 让 服务 器 回 射 的 文 
本 ， 而 且 每 个 客户 都 从 同一 个 shell 脚 本 以 后 台 方式 启动 ， 因 而 所 有 客户 几乎 在 同一 时 刻 启动 。 
所 有 客户 终止 之 后 ， 我 们 向 服务 器 发 送 SIGHUP 信 号， 促使 它 显示 cntreaG 数 组 内 容 。 


linux % udpserv01 


cntread[0] = 0 
cntread[1]j = 15899 
cntread[2] - 2099 
cntread[3] = 515 
cntread[4] - 57 
cntread[5] = 0 
cntread[6] = 0 
cntread(7] = 0 
cntread[8] = 0 


大 多 数 情 况 下 信和 号 处 理 函数 每 次 被 调用 只 读 入 一 个 数据 报 ， 不 过 有 些 情 况 下 可 读 入 多 个 数 
据 报 。cntread[0] 计 数 器 不 为 0 是 可 能 的 : 这 些 信 号 在 信号 处 理 函数 正在 执行 时 产生 ， 不 过 信 
号 处 理 函 数 的 本 次 执行 在 返回 之 前 预先 读 入 了 对 应 这 些 信号 的 数据 报 。 当 信和 号 处 理 函 数 因 这 些 
信和 号 的 提交 而 再 次 被 调用 执行 时 ， 已 经 没有 剩余 的 数据 报 可 以 读 入 了 。 最 后 ， 我 们 可 以 验证 该 
数组 元 素 的 加 权 总 和 (15899 X 1+2099X2+515X3+57X4=21870) 等 于 6 (CA HA) 乘 以 3645 
《每 个 客户 的 发 送 的 文本 行 数 )。 
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254 小结 


信和 号 驱动 式 UO 就 是 让 内 核 在 套 接 字 上 发 生 “ 某 事 ”时 使 用 SITGIo 信 号 通知 进程 。 

e 对 于 已 连接 TCP 套 接 字 ， 可 以 导致 这 种 通知 的 条 件 为 数 众 多 ， 反 而 使 得 这 个 特性 几 近 
无 用 。 

e 对 于 监听 TCP 套 接 字 ， 这 种 通知 发 生 在 有 一 个 新 连接 已 准备 好 接受 之 时 。 

e 对 于 UDP 套 接 字 ， 这 种 通知 意味 着 或 者 到 达 一 个 数据 报 ， 或 者 到 达 一 个 异步 错误 ， 这 两 
种 情况 下 我 们 都 调用 recvfrom。 

我 们 把 早先 的 UDP 回 射 服务 器 程序 改 为 使 用 信号 驱动 式 IO， 所 用 技巧 类 似 于 NTP， 尽 

快 读 入 已 到 达 的 每 个 数据 报 以 获取 其 到 达 时 刻 的 精确 时 间 蕉 ,然后 将 它 置 于 某 个 队列 供 后 续 
处 理 。 


习题 533 
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25. 图 25-4 中 的 循环 有 如 下 另 一 个 设计 ， 








ani 








for (; ; 0) ( 
Sigprocmask(SIG BLOCK, &newmask, &oldmask); 
while (nqueue -- 0) 
Sigsuspend(&zeromask); /* wait for datagram to process */ 
nqueue--; 


/* unblock SIGIO */ 
Sigprocmask(SIG SETMASK, &oldmask, NULL); 


Sendto(sockfd, dg[iget].dg data, dg[iget].dg. len, 0, 
dg[iget].dg sa, dg(iget].dg salen); 


if (++iget >= QSIZE) 
iget = 0; 
) 


这 样 修改 可 以 接受 吗 ? 


Z "m 


26.1 概述 


在 传统 的 UNIX 模 型 中 ， 当 一 个 进程 需要 另 一 个 实体 来 完成 某 事 时 ， 它 就 fork 一 个 子 进程 
并 让 子 进程 去 执行 处 理 。Unix 上 的 大 多 数 网 络 服务 器 程序 就 是 这 么 编写 的 ， 正 如 我 们 在 早先 讲 
解 的 并 发 服务 器 程序 例子 中 看 到 的 那样 : 父 进程 accept 一 个 连接 ，fork 一 个 子 进程 ， 该 子 进程 
处 理 与 该 连接 对 端的 客户 之 间 的 通信 。 
尽管 这 种 范式 多 少年 来 一 直 用 得 挺 好 ，fork 调 用 却 存在 一 些 问 题 。 
e fork 是 昂贵 的 。fork 要 把 父 进程 的 内 存 映 像 复制 到 子 进程 ， 并 在 子 进程 中 复制 所 有 描述 
符 ， 如 此 等 等 。 当 今 的 实现 使 用 称 为 写 时 复制 (copy-on-write) 的 技术 ， 用 以 避免 在 子 
进程 切实 需要 自己 的 副本 之 前 把 父 进程 的 数据 空间 复制 到 子 进程 。 然 而 即便 有 这 样 的 优 
化 措施 ，fork 仍 然 是 昂贵 的 。 
e fork 返 回 之 后 父子 进程 之 间 信 息 的 传递 需要 进程 间 通 信 (PC) 机 制 。 调 用 fork 之 前 父 
进程 向 尚未 存在 的 子 进程 传递 信息 相当 容易 ， 因 为 子 进程 将 从 父 进 程 数据 空间 及 所 有 描 
述 符 的 一 个 副本 开始 运行 。 然 而 从 子 进程 往 父 进程 返回 信息 却 比 较 费 力 。 
线程 有 助 于 解决 这 两 个 问题 。 线 程 有 时 称 为 轻 权 进程 〈lightweightprocess)， 因 为 线程 比 进 
程 “ 权 重 轻 些 ”。 也 就 是 说 ， 线 程 的 创建 可 能 比 进程 的 创建 快 10 一 100 倍 。 
同一 进程 内 的 所 有 线程 共享 相同 的 全 局 内 存 。 这 使 得 线程 之 间 易 于 共享 信息 ， 然 而 伴随 这 
种 简易 性 而 来 的 却 是 同步 〈synchronization) 问题 。 
同一 进程 内 的 所 有 线程 除了 共享 全 局 变量 外 还 共享 : 
. 进程 指令 ; 
e 大 多 数 数据 ; 
e 打开 的 文件 〈 即 描述 符 ); 
e 信号 处 理 函 数 和 信和 号 处 置 ; 
e 当前 工作 目录 ; 
e 用 户 ID 和 组 ID。 
不 过 每 个 线程 有 各 自 的 : 
e 线程 ID; 
e 寄存 器 集合 ， 包 括 程序 计数 器 和 栈 指针 ; 
e 栈 〈 用 于 存放 局 部 变量 和 返回 地 址 ); 
€ errno; 
e 信和 号 掩 码 ; 
e 优先 级 。 
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就 像 我 们 在 11.18 节 讨论 过 的 那样 ， 信 号 处 理 函数 可 以 类 比 作 某 种 线程 。 这 就 是 说 在 传统 
的 UNIX 模 型 中 ， 我 们 有 主 执行 流 (也 称 为 主 控制 流 ， 即 一 个 线程 ) 和 某 个 信号 处 理子 数 CX 
一 个 线程 ) 。 如 果 主 执行 流 正 在 更 改 某 个 链表 时 发 生 一 个 信号 ， 而 且 该 信号 的 处 理 函 数 也 试 
图 更 改 该 链表 ， 那 么 后 果 通 常 是 灾难 性 的 。 主 执行 流 和 信号 处 理 函 数 共享 同样 的 全 局 变量 ， 
不 过 它们 有 各 自 的 栈 ， 
我 们 在 本 章 讲 解 的 是 POSIX 线 程 ， 也 称 为 Pthread。POSIX 线 程 作为 POSIX.1c 标 准 的 一 部 分 
在 1995 年 得 到 标准 化 , 大 多 数 UNIX 版 本 将 来 会 支持 这 类 线程 。 我 们 将 看 到 所 有 Pthread 函 数 都 以 
pthreadG_ 打 头 。 本 章 只 是 线程 的 一 个 引子 ， 旨 在 使 得 我 们 能 够 在 网 络 程序 中 使 用 它们 。 关 于 线 
程 的 更 多 细节 参见 [Butenhof 1997]. 


26.2 ”基本 线程 函数 : 创建 和 终止 


本 节 讲 解 5 个 基本 线程 函数 。 在 随后 两 节 中 ， 我 们 将 利用 这 些 函 数 把 我 们 的 TCP 客 户 / 服 务 
器 程序 重新 编写 成 改 用 线程 取代 fork。 


26.2.1 pthread create 函数 


当 一 个 程序 由 exec 启 动 执行 时 ， 称 为 初始 线程 (initial thread) 2442 (main thread) 的 
单个 线程 就 创建 了 。 其 余 线 程 则 由 pthread_create 函 数 创建 。 


$include «pthread.h» 


Ed 








int pthread create(pthread t *fid, const pthread attr t *attr, 


void *(*func) (void *), void *arg); 
返回 : 车 成 功 则 为 0， 若 出 错 则 为 正 的 Bccoe 值 





一 个 进程 内 的 每 个 线程 都 由 一 个 线程 ID (thread ID) 标识 ， 其 数据 类 型 为 pthread t (FE 
往 是 unsignea int)。 如 果 新 的 线程 成 功 创建 ， 其 ID 就 通过 id 指针 返回 。 

每 个 线程 都 有 许多 属性 (attribute): 优先 级 、 初 始 栈 大 小 、 是 否 应 该 成 为 一 个 守护 线程 ， 
等 等 ,我 们 可 以 在 创建 线程 时 通过 初始 化 一 个 取代 默认 设置 的 pthread_attr_t 变 量 指定 这 些 属 
性 。 通 常情 况 下 我 们 采纳 默认 设置 ， 这 时 我 们 把 attr 参 数 指定 为 空 指针 。 

创建 一 个 线程 时 我 们 最 后 指定 的 参数 是 由 该 线程 执行 的 函数 及 其 参数 。 该 线程 通过 调用 这 
个 函数 开始 执行 ， 然 后 或 者 显 式 地 终止 〈 通 过 调用 pthread_exit)， 或 者 隐 式 地 终止 〈 通 过 让 
该 函数 返回 )。 该 函数 的 地 址 由 /inc 参数 指定 ， 该 函数 的 唯一 调用 参数 是 指针 arg。 如 果 我 们 需要 
给 该 函数 传递 多 个 参数 ， 我 们 就 得 把 它们 打包 成 一 个 结构 ， 然 后 把 这 个 结构 的 地 址 作为 单个 参 
数 传递 给 这 个 起 始 函 数 。 

注意 func 和 arg 的 声明 。func 所 指 函 数 作 为 参数 接受 一 个 通用 指针 《voia *)， 又 作为 返回 
值 返 回 一 个 通用 指针 (voia *)。 这 使 得 我 们 可 以 把 一 个 指针 ( 它 指向 我 们 期 望 的 任何 内 容 》 
传递 给 线程 ， 又 允许 线程 返回 一 个 指针 〈 它 同样 指向 我 们 期 望 的 任何 内 容 )。 

通常 情况 下 Pthread 函 数 的 返回 值 成 功 时 为 0， 出 错时 为 某 个 非 0 值 。 与 套 接 字 函 数 及 大 多 数 
系统 调用 出 错时 返回 -1 并 和 置 errno 为 某 个 正 值 的 做 法 不 同 的 是 ，Pthread 函 数 出 错时 作为 函数 返 
回 值 返 回 正 值 错误 指示 。 举例 来 说 , 如 果 pthread_create 因 在 线程 数目 上 超过 某 个 系统 限制 而 
不 能 创建 新 线程 ， 函 数 返 回 值 将 是 EAGaAIN。Pthread 函 数 不 设置 errno。 成 功 为 0 出 错 为 非 0 这 个 
约定 不 成 问题 ， 因 为 <sys/errno,h> 头 文件 中 所 有 的 Exxx 值 都 是 正 值 。0 值 从 来 不 被 赋予 任何 
ExxxAA Fe 
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26.2.2 pthread join 函数 


我 们 可 以 通过 调用 pthread_join 等 待 一 个 给 定 线程 终止 。 对 比 线程 和 UNIX 进 程 ， 
pthread_create 类 似 于 fork，pthread_join 类 似 于 waitpid。 


#include <pthread.h> 


int pthread join(pthread t *tid, void **status) ; 





返回 : 若 成 功 则 为 0， 若 出 错 则 为 正 的 Eom 值 


我 们 必须 指定 要 等 待 线程 的 id4。 不 幸 的 是 ，Pthread 没 有 办 法 等 待 任意 一 个 线程 (类似 指定 
进程 ID 参数 为 -1 调用 waitpid)。 我 们 将 在 讨论 图 26-14 时 回 到 本 问题 。 

如 果 status 指 针 非 空 , 来 自 所 等 待 线程 的 返回 值 (一 个 指向 某 个 对 象 的 指针 ) 将 存 入 由 status 
指向 的 位 置 。 
26.2.3 pthread_self 函数 


每 个 线程 都 有 一 个 在 所 属 进程 内 标识 自身 的 ID 。 线 程 ID 由 pthread_create 返 回 ， 而 且 我 
们 已 经 看 到 pthread_join 使 用 它 。 每 个 线程 使 用 pthreada_self 获 取 自 身 的 线程 ID。 


#include «pthread.h» 


pthread t pthread self (void); 





对 比 线程 和 UNIX 进 程 ，pthread_self 类 似 于 getpiq。 
26.2.4 pthread detach 函数 


一 个 线程 或 者 是 可 汇合 的 joinable， 默 认 值 )， 或 者 是 脱离 的 (detached)。 当 一 个 可 汇合 
的 线程 终止 时 , 它 的 线程 DD 和 退出 状态 将 留存 到 另 一 个 线程 对 它 调用 pthread_join。 脱离 的 线 
程 却 像 守护 进程 ， 当 它们 终止 时 ， 所 有 相关 资源 都 被 释放 ， 我 们 不 能 等 待 它们 终止 。 如 果 一 个 
线程 需要 知道 另 一 个 线程 什么 时 候 终 止 ， 那 就 最 好 保持 第 二 个 线程 的 可 汇合 状态 。 

pthread_detach 函 数 把 指定 的 线程 转变 为 脱离 状态 。 


#include «pthread.h» 


int pthread detach(pthread t tid); 





返回 : 若 成 功 则 为 0， 若 出 错 则 为 正 的 Exox 值 
本 函数 通常 由 想 让 自己 脱离 的 线程 调用 ， 就 如 以 下 语句 : 
pthread detach(pthread self()); 


26.2.5 pthread exit 函数 
让 一 个 线程 终止 的 方法 之 一 是 调用 pthread_exit。 


#include «pthread.h» 


void pthread exit(void *status) ; 


不 返回 到 调用 者 
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如 果 本 线程 未 曾 脱离 ， 它 的 线程 ID 和 退出 状态 将 一 直 留 存 到 调用 进程 内 的 某 个 其 他 线程 对 
它 调用 pthread_join。 

指针 status 不 能 指向 局 部 于 调用 线程 的 对 象 ， 因 为 线程 终止 时 这 样 的 对 象 也 消失 。 

让 一 个 线程 终止 的 另外 两 个 方法 是 。 

e 启动 线程 的 函数 〈 即 pthread_create 的 第 三 个 参数 ) 可 以 返回 。 既 然 该 函数 必须 声明 
成 返回 一 个 veia 指 针 ， 它 的 返回 值 就 是 相应 线程 的 终止 状态 。 

e 如 果 进 程 的 main 函 数 返回 或 者 任何 线程 调用 了 exit， 整 个 进程 就 终止 ， 其 中 包括 它 的 任 
何 线程 。 


—————PM E S DE EE SED A A ENE 


26.3 ”使 用 线程 的 etr cli 函数 


我 们 使 用 线程 的 第 一 个 例子 是 把 图 15-9 中 使 用 fork 的 str_cli 函 数 重新 编写 成 改 用 线程 。 
回顾 一 下 ， 我 们 提供 了 该 函数 的 多 个 其 他 版 本 : 最 初 是 图 5-5 中 使 用 停 - 等 协议 的 版 本 我 们 讨 
论 过 该 版 本 远 非 适 合 批量 输入 );， 接着 是 图 6-13 中 使 用 阻塞 式 WO 和 select 函 数 的 版 本 ; 后 来 是 
从 图 16-3 开 始 的 使 用 非 阻塞 式 UO 的 版 本 。 图 26-1 展 示 了 该 函数 线程 版 本 的 设计 。 

客户 


copyto 
线程 
pthread create 


图 26-1 ”使 用 线程 重新 编写 str_cli 


图 26-2 给 出 了 使 用 线程 的 str_c1lii 汤 数 。 
unpthread.h 头 文件 
i 这 是 我 们 首次 碰 到 unpthread.h 头 文件 。 它 包含 我 们 通常 的 unp.h 头 文件 ， 接 着 包含 
POSIX 的 <pthread.h> 头 文件 ， 然 后 定义 我 们 为 pthread_XXX 函 数 编写 的 包 于 函数 
(1.4 节 ) 的 函数 原型 ， 这 些 包 训 函数 都 以 Pthreaa_ 打 头 。 
把 参数 保存 在 外 部 变量 中 
10-11 我 们 将 要 创建 的 线程 需要 str_cli 的 2 个 参数 ， fo (输入 文件 的 标准 IO 库 FILE 指 针 ) 
和 sockfd (连接 到 服务 器 的 TCP 套 接 字 描述 符 )。 为 简单 起 见 ， 我 们 把 这 2 个 参数 值 保 
存 到 外 部 变量 中 。 另 一 个 技巧 是 把 这 两 个 值 放 到 一 个 结构 中 ， 然 后 把 指向 这 个 结构 的 
一 个 指针 作为 参数 传递 给 我 们 将 要 创建 的 线程 。 
创建 新 线程 
12 创建 线程 ， 新 线程 ID 返回 到 cid 中 。 由 新 线程 执行 的 函数 是 copykto。 没 有 参数 传递 给 
该 线程 。 
主线 程 循环 : 从 套 接 字 到 标准 输出 复制 
13-14 主线 程 调 用 readaline 和 fputs， 把 从 套 接 字 读 入 的 每 个 文本 行 复 制 到 标准 输出 。 
终止 
15 当 str_cli 函 数 返 回 时 ，main 函 数 首 过 调用 exit 终 止 进程 (5.4 节 )， 进 程 内 的 所 有 线 
程 也 随 之 被 终止 。 通 常情 况 下 ，copyto 线 程 在 从 标准 输入 读 到 EOF 时 已 经 先 于 main 函 








标准 输入 










标准 输出 
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数 的 exit 调 用 终止 。 然 而 要 是 发 生 服 务 器 过 早 终 止 之 事 (5.12 节 )， 尚 未 读 入 EOF 的 
copyto 线 程 就 得 由 main 隙 数 调 用 exit 来 终止 。 





— - -一 threads/strclithread.c 

1 include "unpthread.h" 

2 void *copyto(void *); 

3 static int  sockfd; /* global for both threads to access */ 
4 static FILE *fp; 

5 void 

6 str cli(FILE *fp arg, int sockfd arg) 

7 ( 

8 char recvline[MAXLINE]; 

9 pthread t tid; 

10 Sockfd = sockfd arg; /* copy arguments to externals */ 

1l fp - fp arg; ` 

12 Pthread create(&tid, NULL, copyto, NULL); 

13 while (Readline(sockfd, recvline, MAXLINE) > 0) 

14 Fputs(recvline, stdout); 

15.) 

16 void * 

17 copyto(void *arg) 

18 ( 

19 char sendline[MAXLINE]; 

20 while (Fgets(sendline, MAXLINE, fp) !- NULL) 

21 Writen(sockfd, sendline, strlen(sendline)); 
22 Shutdown(sockfd, SHUT WR); /* EOF on stdin, send FIN */ 
23 return (NULL); 

24 /* return (i.e., thread terminates) when EOF on stdin */ 

25 } 

M threads/strclithread.c 
图 26-2 ”使 用 线程 的 str_cli 函 数 
copyto 线 程 


16-25 ”该 线程 只 是 把 读 自 标准 输入 的 每 个 文本 行 复制 到 套 接 字 。 当 在 标准 输入 上 读 得 EOF 时 ， 
它 通过 调用 shutdown 从 套 接 字 送出 FIN， 然 后 返回 。 从 启动 该 线程 的 函数 return 来 终 
止 该 线程 。 

我 们 在 16.2 节 末尾 提供 了 用 于 str_cli 函 数 不 同 版 本 的 5 个 实现 技术 的 性 能 测量 结果 。 我 们 
看 到 ， 刚 才 给 出 的 线程 版 本 花费 8.5 秒 钟 ， 略 微 快 于 使 用 fork 的 版 本 《正如 所 料 )， 不 过 慢 于 非 
阻塞 式 IO 的 版 本 。 然 而 对 比 非 阻塞 式 VO 版 本 (16.245). 的 复杂 性 和 线程 版 本 的 简单 性 ， 我 们 依 
然 推荐 使 用 线程 而 不 是 非 阻塞 式 MO。 


AN 


26.4 “使 用 线程 的 TCP 回 射 服务 器 程序 


现在 我 们 重新 编写 图 5-2 中 的 TCP 回 射 服务 器 程序 ， 改 成 为 每 个 客户 使 用 一 个 线程 ， 而 不 是 
为 每 个 客户 使 用 一 个 子 进程 。 我 们 同样 使 用 自己 的 tcp_listen 函 数 使 得 该 程序 与 协议 无 关 。 
26-3 给 出 了 本 服务 器 程序 。 
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M — —— threads/tepserv01.c 

1 #include "unpthread.h" 

2 static void *doit(void *); /* each thread executes this function */ 

3 int 

4 main(int argc, char **argv) 

5 { 

6 int listenfd, connfd; 

7 pthread t tid; 

8 Socklen t addrlen, len; 

9 struct sockaddr *cliaddr; 

10 if (arge == 2) 

11 listenfd = Tcp listen(NULL, argv[1], &addrlen); 

12 else if (argc -- 3) 

13 listenfd - Tcp listen(argv[1], argv[2], &addrlen); 

14 else 

15 err quit("usage: tcpserv0l [ «host» ] «service or port»"); 

16 cliaddr - Malloc(addrlen); 

17 for (; : 2) ( 

18 len = addrlen; 

19 connfd - Accept(listenfd, cliaddr, &len); 

20 Pthread create(&tid, NULL, &doit, (void *) connfd); 

21 } 

22 } 

23 static void * 

24 doit(void *arg) 

25 { 

26 Pthread detach(pthread self()); 

27 str echo((int) arg); /* same function as before */ 

28 Close((int) arg); /* done with connected socket */ 

29 return (NULL); 

30 ] 

threads/tcpserv01.c 
图 26-3 ”使 用 线程 的 TCP 回 射 服务 器 程序 〈 参 见习 题 26.5) 

创建 线程 


17-21 accept 返 回 之 后 ， 改 为 调用 pthread_create 取 代 调 用 fork。 我 们 传递 给 doit 函 数 的 
唯一 参数 是 已 连接 套 接 字 描 述 符 connfq。 


我 们 把 整数 描述 符 connfa 类 型 强制 转换 成 void 指针 。ANSI C 并 不 保证 这 么 做 能 够 起 作 
用 。 只 有 在 整数 的 大 小 小 于 或 等 于 指针 的 大 小 的 系统 上 ， 这 样 的 类 型 强制 转换 才能 起 作用 。 
所 幸 的 是 大 多 数 UNIX 实 现 具备 这 个 特征 (图 1-17) .我 们 稍 后 还 要 讨论 这 一 点 。 


线程 函数 
23-30 ”qdoit 是 由 线程 执行 的 函数 。 线 程 首先 让 自身 脱离 ， 因 为 主线 程 没有 理由 等 待 它 创建 的 
每 个 线程 。 然 后 调用 图 5-3 中 的 str_echo 函 数 。 该 函数 返回 之 后 ， 我 们 必须 close 已 连 
接 套 接 字 ， 因 为 本 线程 和 主线 程 共享 所 有 的 描述 符 。 对 于 使 用 fork 的 情形 ， 子 进程 就 
不 必 close 已 连接 套 接 字 , 因为 子 进程 旋即 终止 , 而 所 有 打开 的 描述 符 在 进程 终止 时 都 
将 被 关闭 〈 参 见习 题 26.2)。 
还 要 注意 的 是 ， 主 线程 不 关闭 已 连接 套 接 字 ， 而 在 调用 fork 的 并 发 服务 器 程序 中 我 们 却 总 
是 反 着 做 。 这 是 因为 同一 进程 内 的 所 有 线程 共享 全 部 描述 符 ， 要 是 主线 程 调用 ciose， 它 就 会 
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终止 相应 的 连接 。 创 建新 线程 并 不 影响 已 打开 描述 符 的 引用 计数 ， 这 一 点 不 同 于 fork。 
本 程序 中 有 一 个 微妙 的 错误 ， 我 们 将 在 26.5 节 详细 讲解 。 你 能 指出 这 个 错误 吗 ? 〈 见 习题 
26.5)。 


26.4.1 给 新 线程 传递 参数 


我 们 提 到 过 图 26-3 中 把 整数 变量 connfa 类 型 强制 转换 成 void 指针 并 不 保证 在 所 有 系统 上 
都 能 起 作用 。 要 正确 地 处 理 这 一 点 需要 做 额外 的 工作 。 

首先 注意 我 们 不 能 简单 地 把 connfd 的 地 址 传递 给 新 线程 。 也 就 是 说 如 下 代码 并 不 起 作用 。 

xod argc, char **argv) 


t 
int listenfd, connfd; 


for (;;3;) { 
len = addrlen; 
connfd = Accept (listenfd, cliaddr, &len); 


Pthread_create(&tid, NULL, &doit, &connfd); 
} 
} 
static void * 
doit (void *arg) 
{ 
int connfd; 


connfd = *((int *) arg); 
Pthread detach(pthread self()); 


str echo(connfd); /* same function as before */ 
Close(connfd); /* done with connected socket */ 
return(NULL); 


} 

MANSI C 角 度 看 这 是 可 以 接受 的 : ANSI C 保 证 我 们 能 够 把 一 个 整数 指针 类 型 强制 转换 为 
void *， 然 后 把 这 个 〈void +) 指针 类 型 强制 转换 回 原来 的 整数 指针 。 问 题 就 出 在 这 个 整数 指 
针 指 向 什么 上 。 

主线 程 中 只 有 一 个 整数 变量 connfd, 每 次 调用 accept 该 变量 都 会 被 覆 写 以 一 个 新 值 (已 连 
接 描 述 符 )。 因 此 可 能 发 生 下 述 情况 。 

e accept 返 回 ， 主 线程 把 返回 值 ( 辟 如 说 新 的 描述 符 是 5) 存 入 connfd 后 调用 pthread_ 

create。pthread_create 的 最 后 一 个 参数 是 指向 connfa 的 指针 而 不 是 connfd 的 内 容 。 

e Pthread 函 数 库 创建 一 个 线程 ， 并 准备 调度 doit 函 数 启动 执行 。 

e 另 一 个 连接 就 绪 且 主线 程 在 新 创建 的 线程 开始 运行 之 前 再 次 运行 。accept 返 回 ， 主 线程 

把 返回 值 ( 辟 如 说 新 的 描述 符 现在 是 6) 存 入 connfd 后 调用 pthread_create。 

尽管 主线 程 共 创建 了 两 个 线程 ,但 是 它们 操作 的 都 是 存放 在 connfd 中 的 最 终 值 (我 们 假设 
是 6)。 问 题 出 在 多 个 线程 不 是 同步 地 访问 一 个 共享 变量 (以 取得 存放 在 connfa 中 的 整数 值 )。 
在 图 26-3 中 , 我 们 通过 把 connfa 的 值 (而 不 是 指向 该 变量 的 一 个 指针 ) 传递 给 pthread_create 
来 解决 本 问题 。 按 照 C 向 被 调用 函数 传递 整数 值 的 方式 〈 把 该 值 的 一 个 副本 推 入 被 调用 函数 的 
栈 中 )， 这 个 解决 办 法 是 可 行 的 。 

图 26-4 给 出 了 解决 本 问题 的 更 好 办 法 。 
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threads/tcpserv02.c 
1 #include “unpthread.h" 
2 static void *doit (void *); /* each thread executes this function */ 
3 int 
4 main(int argc, char **argv) 
54 
6 int listenfd, *iptr; 
7 thread t tid; 
8 Socklen t addrlen, len; 
9 struct sockaddr *cliaddr; 
10 if (argc == 2) 
11 listenfd = Tcp listen(NULL, argv[1], &addrlen); 
12 else if (argc -- 3) 
13 listenfd = Tcp listen(argv[1], argv[2], &addrlen); 
14 eise 
15 err quit("usage: tcpserv0l [ «host» ] «service or port>"); 
16 cliaddr - Malloc(addrlen); 
17 for t2 21 
18 len = addrlen; 
19 iptr = Malloc(sizeof(int)); 
20 *iptr = Accept(listenfd, cliaddr, &len); 
21 Pthread, create(&tid, NULL, &doit, iptr); 
22 ) 
23 ) 
24 static void * 
25 doit(void *arg) 
26 ( 
27 int connfd; 
28 connfd - *((int *) arg); 
29 free (arg); 
30 Pthread, detach (pthread self()); 
31 str echo(connfd); /* same function as before */ 
32 Close(connfd); /* done with connected socket */ 
33 return (NULL); 
34 ) 
threads/tcpserv02.c 


图 26-4 ”使 用 线程 且 参 数 传递 更 具 移植 性 的 TCP 回 射 服务 器 程序 


17-22 每 当 调用 accept 时 ， 我 们 首先 调用 malloc 分 配 一 个 整数 变量 的 内 存 空间 ， 用 于 存放 有 
待 accept 返 回 的 已 连接 描述 符 。 这 使 得 每 个 线程 都 有 各 自 的 已 连接 描述 符 副 本 。 

28~29 ”线程 获取 已 连接 描述 符 的 值 ， 然 后 调用 free 释 放 内 存 空 间 。 

malloc 和 free 这 两 个 函数 历来 是 不 可 重 入 的 。 换 名 话说, 在 主线 程 正 处 于 这 两 个 函数 之 一 
的 内 部 处 理 期 间 ， 从 某 个 信号 处 理 函 数 中 调用 这 两 个 函数 之 一 有 可 能 导致 灾难 性 的 后 果 ， 这 是 
因为 这 两 个 函数 操纵 相同 的 静态 数据 结构 。 既 然 如 此 ， 我 们 如 何 才 能 在 图 26-4 中 调用 这 两 个 函 
数 呢 ? POSIX 要 求 这 两 个 函数 以 及 许多 其 他 函数 都 是 线程 安全 的 〈thread-safe)。 这 个 要 求 通常 
通过 在 对 我 们 透明 的 库 函 数 内 部 执行 某 种 形式 的 同步 达到 。 


26.4.2 ”线程 安全 函数 
除了 图 26-5 中 列 出 的 函数 外 ，POSIX.1 要 求 由 POSIX.1 和 ANS1 C 标 准 定义 的 所 有 函数 都 是 
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线程 安全 的 。 


asctime asctime r 
f ctermid 仅 当 参数 非 空 时 才 是 线程 安全 的 
ctime ctime r 
getc unlocked 
getchar, unlocked 
getgrid getgrid r 


getgrnam getgrnam r 
getlogin get login_r 


getpwnam_r 
getpwuid_r 
gmtime r 
localtime r 

putc unlocked 

putchar unlocked 

rand rand r 

readdir readdir r 

strtok strtok r 
tmpnam 仅 当 参 数 非 空 时 才 是 线程 安全 的 
ttyname r 

gethostXXX 

getnetXXX 

getprotoXXX 

getservXXX 

inet ntoa 





图 26-5 ”线程 安全 函数 


不 幸 的 是 ，POSIX 未 就 网 络 编程 API 函 数 的 线程 安全 性 作出 任何 规定 。 本 表 中 最 后 5 行 来 源 
于 Unix 98。 我 们 在 11.18 节 讨论 过 gethostbyname 和 gethostbyaddr 的 不 可 重 入 性 质 。 我 们 提 到 
Bi: 尽管 一 些 厂 家 定义 了 这 两 个 函数 以 _r 结 尾 其 名 字 的 线程 安全 版 本 ， 不 过 这 些 线程 安全 函数 
没有 标准 可 循 ， 应 该 避免 使 用 。 图 11-21 汇 总 了 所 有 不 可 重 入 的 getXXX 函 数 。 

我 们 从 图 26-5 看 到 ， 让 一 个 函数 线程 安全 的 共通 技巧 是 定义 一 个 名 字 以 _r 结 尾 的 新 函数 。 
其 中 两 个 函数 〈ctermia 和 tmpnam) 的 线程 安全 条 件 是 :调用 者 为 返回 结果 预先 分 配 空间 ， 并 
把 指向 该 空间 的 指针 作为 参数 传递 给 函数 。 
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把 一 个 未 线程 化 的 程序 转换 成 使 用 线程 的 版 本 时 ， 有 时 会 碰 到 因 其 中 有 函数 使 用 静态 变量 
而 引起 的 一 个 常见 编程 错误 。 和 许多 与 线程 相关 的 其 他 编程 错误 一 样 ， 这 个 错误 造成 的 故障 也 
是 非 确定 的 。 在 无 需 考虑 重 入 的 环境 下 编写 使 用 静态 变量 的 函数 无 可 非议 ， 然 而 当 同 一 进程 内 
的 不 同 线程 《信号 处 理 函数 也 视 为 线程 ) 几乎 同时 调用 这 样 的 函数 时 就 可 能 会 有 问题 发 生 ， 
为 这 些 函 数 使 用 的 静态 变量 无 法 为 不 同 的 线程 保存 各 自 的 值 。 图 3-18 给 出 的 reaal ine 函 数 版 本 
就 是 这 样 的 一 个 例子 。 该 版 本 是 图 3-17 中 的 同名 函数 的 性 能 加 速 版 本 ， 它 调用 的 my_read 函 数 
使 用 3 个 静态 变量 。 这 些 静 态 变量 是 为 处 理性 能 加 速 而 增设 的 。 "这 个 编程 错误 是 在 将 现 有 的 函 





Q 本 段 文字 第 3 版 和 第 2 版 出 入 较 大 。 第 2 版 中 Stevens 先 生 详细 介绍 了 最 终 发 现 图 3-18〈 在 第 2 版 中 为 图 3-17， 另 外 


图 3-17 在 第 2 版 中 为 图 3-16) 中 的 readl ine 函 数 版 本 存在 因 使 用 静态 变量 而 引起 所 述 编程 错误 的 整个 过 程 ， 确 
实 略 显 元 长 : 不 过 第 3 版 的 新 作者 们 未 能 较 好 地 概括 Stevens 先 生 的 这 段 话 ， 读 者 看 到 稍 后 突然 导出 readline 和 
图 3-18 会 莫名 其 妙 ; 译 者 因此 根据 自己 的 理解 概括 了 这 段 话 。 注 意 ， 第 2 版 图 3-17 中 的 3 个 静态 变量 是 my_read 
函数 的 局 部 变量 , 第 3 版 中 图 3-18 因 引入 一 个 从 未 用 到 过 的 readlinebuf 函 数 而 把 这 3 个 静态 变量 改 成 了 全 局 变 
量 ;如 此 改动 并 不 影响 这 里 的 讨论 ， 只 是 直接 使 用 静态 变 其 的 函数 由 1 个 变 成 了 2 个 《有 -一 个 从 未 被 调用 过 )。 
一 一 译 者 注 
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数 转换 成 在 线程 环境 中 运行 时 经 常 碰 到 的 一 个 问题 ， 并 有 多 个 解决 办 法 。 
e 使 用 线程 特定 数据 。 这 个 办 法 并 不 简单 ， 而 且 转 换 成 了 只 能 在 支持 线程 的 系统 上 工作 的 
函数 。 本 办 法 的 优点 是 调用 顺序 无 需 变动 ， 所 有 变动 都 体现 在 库 函 数 中 而 非 调用 这 些 函 
数 的 应 用 程序 中 。 我 们 将 在 本 节 靠 后 给 出 一 个 使 用 线程 特定 数据 达成 线程 安全 的 
readline 版 本 。 
e 改变 调用 顺序 ， 由 调用 者 把 read1line 的 所 有 调用 参数 封装 在 一 个 结构 中 ,并 在 该 结构 中 
存 入 出 自 图 3-18 的 静态 变量 。 这 个 办 法 也 曾经 使 用 过 ， 图 26-6 给 出 了 新 的 结构 和 新 的 函 


数 原 型 。 
typedef struct ( 
int read fd; /* caller's descriptor to read from */ 
char *read ptr; /* caller's buffer to read into */ 
size t read maxlen; /* caller's max #bytes to read */ 
/* next three are used internally by the function */ 
int rl cnt; /* initialize to 0 */ 
char *rl bufptr; /* initialize to rl buf */ 
char rl buf [MAXLINE]; 
) Rline; 
void readline rinit(int, void *, size t, Rline *); 


ssize t readline r(Rline *); 
ssize t Readline_r(Rline *); 


图 26-6 readline 可 重 入 版 本 的 数据 结构 及 函数 原型 


这 些 新 函数 在 支持 线程 和 不 支持 线程 的 系统 上 都 可 以 使 用 , 不 过 调用 readline 的 所 
有 应 用 程序 都 必须 修改 。 
e 改变 接口 的 结构 ， 避 免 使 用 静态 变量 ， 这 样 函数 就 可 以 是 线程 安全 的 。 对 于 readline 
例子 来 说 ， 这 相当 于 忽略 图 3-18 中 引入 的 性 能 加 速 ， 回 到 图 3-17 的 较 老 版 本 。 既 然 我 们 
说 个 这 个 较 老 版 本 极为 低 效 ， 这 个 办 法 不 一 定 行 得 通 。 
使 用 线程 特定 数据 是 使 得 现 有 函数 变 为 线程 安全 的 一 个 常用 技巧 。 在 讲解 操纵 线程 
特定 数据 的 Pthread 函 数 之 前 ， 我 们 先 讲述 这 个 概念 本 身 和 一 个 可 能 的 实现 ， 因 为 这 些 函 
数 看 起 来 比 实际 的 还 要 复杂 。 
部 分 复杂 性 源 于 许多 关于 线程 使 用 的 教材 都 把 对 线程 特定 数据 的 讲解 写 得 读 起 来 像 是 在 
描述 Pthreads 标 准 本 身 ， 把 键 - 值 (key-value) 对 和 键 (key) 作为 不 透明 对 象 ( opaque object ) 
来 讨论 。 我们 以 索引 (index) 和 指针 (pointer) 来 刻 划 线程 特定 数据 ， 因 为 普通 的 实现 把 一 
个 小 整数 索引 用 作 键 ， 与 索引 关联 的 值 只 是 一 个 指向 由 线程 malloc 的 某 个 内 存 区 的 指针 。 
每 个 系统 支持 有 限 数量 的 线程 特定 数据 元 素 。POSIX 要 求 这 个 限制 不 小 于 128 (每 个 进程 )， 
在 后 面 的 例子 中 我 们 就 采用 128 这 个 限制 。 系 统 〈 可 能 是 线程 函数 库 ) 为 每 个 进程 维护 一 个 我 们 
称 之 为 Key 结 构 的 结构 数组 ， 如 图 26-7 所 示 。 
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图 26-7 ”线程 特定 数据 的 可 能 实现 


an 
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Key 结 构 中 的 标志 指示 这 个 数组 元 素 是 否 正 在 使 用 ， 所 有 的 标志 初始 化 为 “不 在 使 用 ”。 当 
一 个 线程 调用 pthread_key_create 创 建 一 个 新 的 线程 特定 数据 元 素 时 , 系统 搜索 其 Key 结构 数 
组 找 出 第 一 个 不 在 使 用 的 元 素 。 该 元 素 的 索引 〈0 一 127) 称 为 键 (key)， 返 回 给 调用 线程 的 正 
是 这 个 索引 。 我 们 稍 后 讨论 Key 结 构 的 另 一 个 成 员 “ 析 构 函 数 指针 ”。 

除了 进程 范围 的 key 结构 数组 外 ， 系 统 还 在 进程 内 维护 关于 每 个 线程 的 多 条 信息 。 这 些 特 
定 于 线程 的 信息 我 们 称 之 为 Pthread 结 构 , 其 部 分 内 容 是 我 们 称 之 为 pkey 数 组 的 一 个 128 个 元 素 
的 指针 数组 。 图 26-8 展 示 了 这 些 信息 。 


线程 0 线程 n 
Pthread() Pthread() 


其 他 线程 信息 


pkey [0] 
pkey [1] 


pkey [0] 
pkey (1] 


线程 特定 数据 项 





pkey[127] | 指针 | wu, pkey [127] 
图 26-8 系统 维护 的 关于 每 个 线程 的 信息 


pkey 数 组 的 所 有 元 素 都 被 初始 化 为 空 指针 。 这 些 128 个 指针 是 和 进程 内 的 128 个 可 能 的 “ 键 ” 
逐一 关联 的 值 。 

当 我 们 调用 pthreaa_key_create 创 建 一 个 键 时 ， 系 统 告诉 我 们 这 个 键 〈 索 引 )。 每 个 线程 
可 以 随后 为 该 键 存储 一 个 值 〈 指 针 )， 而 这 个 指针 通常 又 是 每 个 线程 通过 调用 malloc 获 得 的 。 
线程 特定 数据 中 易于 混淆 的 地 方 之 一 是 : 该 指针 是 键 - 值 对 中 的 值 ， 但 是 真正 的 线程 特定 数据 却 
是 该 指针 指向 的 任何 内 容 。 

我 们 现在 仔细 查看 一 个 如 何 使 用 线程 特定 数据 的 例子 , 前 提 是 我 们 的 reaaline 函 数 使 用 线 
程 特定 数据 跨 对 于 它 的 相继 调用 维护 每 个 线程 各 自 的 状态 。 我 们 稍 后 通过 修改 原来 的 readline 
函数 展示 遵循 这 些 步骤 的 代码 。 

(1) 一 个 进程 被 启动 ， 多 个 线程 被 创建 。 

(2) 其 中 一 个 线程 〈 璧 如 说 线程 0) 是 首 个 调用 readline 函 数 的 线程 ， 该 函数 转 而 调用 
pthread_key_create。 系 统 在 图 26-7 所 示 Key 结 构 数 组 中 找到 第 一 个 未 用 的 元 素 ， 并 把 它 的 索 
引 《〈0 一 127) 返回 给 调用 者 。 我 们 在 本 例子 中 假设 找到 的 索引 是 1。 

我 们 将 使 用 pthreaa_once 函 数 确保 pthreaq_key_create 只 是 被 第 一 个 调用 reaaqline 的 
线程 所 调用 。 

(3) readline 调 用 pthread_getspecific 获 取 本 线程 的 pkey [1] 值 (图 26-8 中 作为 键 1 之 值 
的 “指针 ”)， 返 回 值 是 一 个 空 指针 。reaqd1ine 于 是 调用 malloc 分 配 内 存 区 ， 用 于 为 本 线程 跨 相 
继 的 readline 调 用 保存 特定 于 线程 的 信息 。readline 按 照 需要 初始 化 该 内 存 区 ， 并 调用 
pthread_setspecific 把 对 应 所 创建 键 的 线程 特定 数据 指针 (pkey [1] ) 设置 为 指向 它 刚刚 分 
配 的 内 存 区 。 图 26-9 展 示 了 此 时 的 情形 ， 其 中 假设 调用 线程 是 线程 0。 
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线程 0 






其 他 线程 信息 


pkey [0] 
pkey [1] 


pkey [0] 
pkey (1] 


NULL 
NULL 


线程 特定 
数据 项 


NULL 





pkey(127]| 指针 |NULL 


图 26-9 把 malloc 到 的 内 存 区 和 线程 特定 数据 指针 相关 联 


我 们 在 该 图 中 指出 ，Pthread 结 构 是 系统 (可 能 是 线程 函数 库 ) 维护 的 ， 而 我 们 malloc 的 
真正 线程 特定 数据 是 由 我 们 的 函数 (本 例 中 为 readline) 维护 的 。pthread_setspecific 所 做 
的 只 是 在 Pthread 结 构 中 把 对 应 指定 键 的 指针 设置 为 指向 分 配 的 内 存 区 。 类 似 地 ，pthread_ 
getspecific 所 做 的 只 是 返回 对 应 指定 键 的 指针 。 

(4) 另 一 个 线程 ( 壁 如 说 线程 nx〉 调 用 readline， 当 时 也 许 线程 0 仍然 在 readline 内 执行 。 

readline 调 用 pthread_once 试 图 初始 化 它 的 线程 特定 数据 元 素 所 用 的 键 ， 不 过 既然 初始 
化 函数 已 被 调用 过 ， 它 就 不 再 被 调用 。 

(5) readaline 调 用 pthread_getspecific 获 取 本 线程 的 pkey [11 值 , 返回 值 是 一 个 空 指针 。 
线程 "于 是 就 像 线 程 0 那样 先 调用 malloc， 再 调用 pthread_setspecific， 以 初始 化 相应 键 C1) 
的 线程 特定 数据 。 图 26-10 展 示 了 此 时 的 情形 。 

线程 0 线程 n 









其 他 线程 信息 







Rz E] 2 


pxey [0] 


pkey 指针 — j 


pkey [0] 


| 指针 | 
pkey [1] 





pkey(127]| 指针 — |NULL pkey[127] [| 指针 — nun 
系统 数据 结构 


线程 分 配 的 内 存 区 域 


图 26-10 ”线程 初始 化 它 的 线程 特定 数据 后 的 数据 结构 


688 


546 $263 KR 程 


(6) 线程 n 继 续 在 readaline 中 执行 ， 使 用 和 修改 它 自己 的 线程 特定 数据 。 

我 们 未 曾 解决 的 一 个 问题 是 当 一 个 线程 终止 时 会 发 生 什 么 ? 如 果 该 线程 调用 过 我 们 的 
readline 函 数 ， 那 么 该 函数 已 经 分 配 了 一 个 需要 释放 掉 的 内 存 区 。 这 正 是 图 26-7 中 的 “ 析 构 函 
数 指针 ”的 用 武之 地 。 一 个 线程 调用 pthread_key_create 创 建 某 个 线程 特定 数据 元 素 时 ， 所 
指定 的 函数 参数 之 一 是 指向 某 个 析 构 函数 〈destructor) 的 一 个 指针 。 当 一 个 线程 终止 时 ， 系 统 
将 扫描 该 线程 的 pkey 数 组 ， 为 每 个 非 空 的 pkey 指 针 调 用 相应 的 析 构 函数 。“ 相 应 的 析 构 函 
数 ” 指 的 是 存放 在 图 26-7 的 Kkey 数 组 中 的 函数 指针 。 这 是 一 个 线程 终止 时 释放 其 线程 特定 数 
据 的 手段 。 

处 理 线程 特定 数据 时 通常 首先 调用 pthread_once 和 pthread_key_create 两 个 函数 。 


#incluGe «pthread.h» 


int pthread once(pthread once t *onceptr, void (*init) (void)); 


int pthread key create(pthread key t *keyptr, void (*destructor) (void *value)); 


HEE: 若 成 功 则 为 0， 若 出 错 则 为 正 的 Exxx 值 


每 当 一 个 使 用 线程 特定 数据 的 函数 被 调用 时 , pthread_once 通 常 转 而 被 该 函数 调用 , 不 过 
pthread_once 使 用 由 onceptr 参 数 指向 的 变量 中 的 值 , 确保 init 参 数 所 指 的 函数 在 进程 范围 内 只 被 
调用 一 次 。 

在 进程 范围 内 对 于 一 个 给 定 键 ，pthread_key_create 只 能 被 调用 一 次 。 所 创建 的 键 通过 
keyptr 指 针 参 数 返 回 ， 如 果 destructor 指 针 参 数 不 为 空 指针 ， 它 所 指 的 函数 将 由 为 该 键 存放 过 某 
个 值 的 每 个 线程 在 终止 时 调用 。 

这 两 个 函数 的 典型 用 法 如 下 所 示 〈 不 考虑 出 错 返回 )。 


pthread key t rl_key; 
pthread once t rl once - PTHREAD ONCE INIT; 





void 
readline destructor(void *ptr) 
{ 

free(ptr); 


void 
readline, once (void) 
{ 
pthread key create(&rl key, readline destructor); 


} 


ssize_t 
readline( ... ) 
{ 


pthread once(&rl once, readline, once); 


if ( (ptr = pthread getspecific(rl key)) == NULL) ( 
ptr = Malloc( ... ); 
pthread setspecific(rl key, ptr); 
/* initialize memory pointed to by ptr */ 

) 


/* use values pointed to by ptr */ 
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每 次 readline 被 调用 时 , 它 都 调用 pthread_once。pthread_once 使 用 由 其 onceptr 参 数 指 
向 的 值 (变量 xl_once 的 内 容 ) 确保 由 其 init 参 数 指向 的 函数 只 被 调用 一 次 。 初 始 化 函数 
readline_once 创 建 一 个 线程 特定 数据 键 存放 在 rl_key 中 ，readline 随 后 在 pthread_ 
getspecific 和 pthreaG_setspecific 调 用 中 使 用 这 个 键 。 

pthread_getspecific 和 pthread_setspecific 这 两 个 函数 分 别 用 于 获取 和 存放 与 某 个 
键 关联 的 值 。 该 值 就 是 我 们 在 图 26-8 中 称 之 为 “指针 ”的 东西 。 该 指针 的 具体 指向 取决 于 应 用 
程序 ， 不 过 通常 情况 下 它 指向 一 个 动态 分 配 的 内 存 区 。 


#include «pthread.h» 


void *pthread getspecific(pthread key t key); 


返回 ， 指 向 线程 特定 数据 的 指针 《有 可 能 是 一 个 空 指针 )》 
int pthread setspecific(pthread key t key, const void *value); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 正 的 Exxx 值 


注意 ， phread_key_create 的 参数 是 一 个 指向 某 个 键 的 指针 (因为 该 函数 需要 在 其 中 存放 
由 系统 赋予 该 键 的 值 )， 而 那 两 个 get 和 set 函 数 的 参数 则 是 键 本 身 〈 可 能 如 早先 讨论 的 那样 是 
一 个 小 整数 索引 )。 


例子 : 使 用 线程 特定 数据 的 readline 函数 


我 们 现在 通过 把 图 3-18 中 reaaline 函 数 的 优化 版 本 转换 为 无 需 改 变调 用 顺序 的 线程 安全 
版 本 以 给 出 一 个 使 用 线程 特定 数据 的 完整 例子 。 

图 26-11 给 出 该 函数 的 第 一 部 分 : pthread_key t Efi. pthread once t"F EL. readline 
destructor 函 数 、readGl1ine_once 函 数 以 及 包含 必须 基于 每 个 线程 维护 的 所 有 信息 的 Rl1ine 





结构 。 
thread /reaadline.c 

1 #include "unpthread.h" 

2 static pthread key t r1. key; 

3 static pthread once t rl once - PTHREAD ONCE INIT; 

4 static void 

5 readline destructor(void *ptr) 

6 { 

7 free(ptr); 

8 } 

9 static void 

10 readline_once (void) 

11 { 

12 Pthread_key_create(&rl_key, readline_destructor) ; 

13 } 

14 typedef struct { 

15 int rl_cnt; /* initialize to 0 */ 

16 char *rl_bufptr; /* initialize to rl buf */ 

17 char rl buf[MAXLINE]; 

18 ) Rline; 

threads/readline.c 


图 26-11 线程 安全 的 readline 函 数 的 第 一 部 分 
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HBR 
4~8 ”我 们 的 析 构 函数 仅仅 释放 由 相应 线程 早先 分 配 的 内 存 区 。 
一 次 性 函数 


9-13 ”我 们 的 一 次 性 函数 将 由 pthread_once 调 用 一 次 ， 它 只 是 创建 由 readline 使 用 的 键 。 
Rline 结 构 
14~18 ”Rline 结 构 含有 因 在 图 3-18 中 声明 为 static 而 导致 前 述 问题 的 那 3 个 变量 。 调用 readline 
的 每 个 线程 都 由 readline 动 态 分 配 一 个 Rline 结 构 ， 然后 由 析 构 函数 释放 。 
图 26-12 给 出 真正 的 readline 函 数 和 由 它 调用 的 my_read 函 数 。 该 图 是 对 图 3-18 所 做 的 一 个 
修改 。 





threads/readline.c 
19 static ssize t 
20 my read(Rline *tsd, int fd, char *ptr) 
21 ( 
22 if (tsd-»rl cnt <= 0) ( 
23 again: 
24 if ( (tsd-»rl cnt = read(fd, tsd-»rl buf, MAXLINE)) < 0) ( 
25 if (errno -- EINTR) 
26 goto again; 
27 return(-1); 
28 ) else if (tsd-»rl cnt -- 0) 
29 return(0); 
30 tsd-»rl bufptr - tsd-»rl buf; 
31 ) 
32 tsd-»rl cnt--; 
33 *ptr = *tsd->rl_bufptr++; 
34 return(1); 
35} 
36 ssize_t 
37 readline(int fd, void *vptr, size_t maxlen) 
38 ( 
39 size t n, rc; 
40 char c, *ptr; 
41 Rline *tsd; 
42 Pthread once(&rl once, readline once); 
43 if ( (tsd = pthread getspecific(rl key)) == NULL) { 
44 tsd = Calloc(1, sizeof(Rline)); /* init to 0 */ 
45 Pthread setspecific(rl key, tsd); 
46 ) 
47 ptr - vptr; 
48 for (n = 1; n < maxlen; n++) ( 
49 if ( (rc = my read(tsd, fd, &c)) -- 1) ( 
50 *ptr++ = C; 
51 if (c == '\n') 
52 break; 
53 ) else if (rc == 0) { 
54 *ptr = 0; 
55 return(n - 1); /* EOF, n - 1 bytes read */ 
56 ) else 
57 return(-1); /* error, errno set by read() */ 
58 } 
59 *ptr = 0; 
60 return (n); 
61 ) 
— —————— —— s lhreads/readline.c 


图 26-12 ”线程 安全 的 readline 函 数 的 第 二 部 分 
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my_read 函 数 
19-35 ”本 函数 的 第 一 个 参数 现在 是 指向 预先 为 本 线程 分 配 的 R1ine 结 构 ( 即 真正 的 线程 特定 数 
: Hi) 的 一 个 指针 。 
分 配 线程 特定 数据 
42 ”我们 首先 调用 pthread_once， 使 得 本 进程 内 第 一 个 调用 reaaline 的 线程 通过 调用 
pthread_once 创 建 线程 特定 数据 键 。 
获取 线程 特定 数据 指针 
43-46 pthreadq_getspecific 返 回 指向 特定 于 本 线程 的 Rl ine 结 构 的 指针 。 然 而 如 果 这 次 是 
本 线程 首次 调用 readline， 其 返回 值 将 是 一 个 空 指针 。 在 这 种 情况 下 ， 我 们 分 配 一 个 
Rline 结 构 的 空间 ， 并 由 calloc 将 其 rl_cnt 成 员 初 始 化 为 0。 然 后 我 们 调用 pthread_ 
setspecific 为 本 线程 存储 这 个 指针 。 下 一 次 本 线程 调用 readline 时 ，pthread_ 
getspecific 将 返回 这 个 刚 存储 的 指针 。 


26.6 Web 客户 与 同时 连接 

我 们 现在 回顾 一 下 16.5 节 的 Web 客 户 程序 例子 ， 并 把 它 重新 编写 成 用 线程 代替 非 阻塞 
connect。 改 用 线程 之 后 ， 我 们 可 以 让 套 接 字 停 留 在 默认 的 阻塞 模式 ， 改 而 为 每 个 连接 创建 一 
个 线程 。 每 个 线程 可 以 阻塞 在 它 的 connect 调 用 中 ， 因 为 内 核 (也 可 能 是 线程 函数 库 ) 会 转 而 


运行 另外 某 个 就 绪 的 线程 。 
图 26-13 给 出 本 程序 的 第 一 部 分 ， 包 括 全 局 变量 和 main 函 数 的 开 首 部 分 。 

















threads/web01.c 
1 #include "unpthread.h" 
2 #include <thread.h> /* Solaris threads */ 
3 #define MAXFILES 20 
4 #define SERV "B0" /* port number or service name */ 
5 struct file ( 
6 char  *f name; /* filename */ 
7 char  *f host; /* hostname or IP address */ 
8 int f. fd: /* descriptor */ 
9 int f flags; /* F, xxx below */ 
10 pthread t f tid; /* thread ID */ 
11 ) file[MAXFILES]; 
12 #define F CONNECTING 1 /* connect() in progress */ 
13 #define F READING 2 /* connectí() complete; now reading */ 
14 #define F. DONE 4 /* all done */ 
15 #define GET CMD "GET $s HTTP/1.0\r\n\r\n" 
16 int nconn, nfiles, nlefttoconn, nlefttoread; 
17 void *do get read(void *); 
18 void home page(const char *, const char *); 
19 void write get cmd(struct file *); 
20 int 
21 main(int argc, char **argv) 
22 { 
23 int i, n, maxnconn; 





图 26-13 ”全 局 变量 和 main 函 数 的 开 首 部 分 
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24 pthread t tid; 
25 struct file *fptr; 
26 if (argc « 5) 
27 err quit("usage: web <#conns> <IPaddr> «homepage» filel ..."); 
28 maxnconn = atoi(argv[1]); 
29 nfiles - min(argc - 4, MAXFILES); 
30 for (i = 0; i < nfiles; i++) ( 
31 file(i].f name = argv[i + 4]; 
32 file(i].f host = argv[2)]; 
33 file[(i].f flags = 0; 
34 } 
35 printf("nfiles = %d\n", nfiles); 
36 home page(argv[2], argv[3]): 
37 nlefttoread - nlefttoconn - nfiles; 
38 nconn = 0; 

7 - — ———— — threads/web01.c 
图 26-13 (E) 
全 局 变量 


1-16 ”除了 通常 的 <zpthread.h> 头 文件 外 ， 我 们 还 包含 <thread.h> 头 文件 ， 因 为 除了 使 用 
Pthread 线 程 外 ， 我 们 还 需要 使 用 Solaris 线 程 ， 这 一 点 我 们 稍 后 就 讲解 。 
io ”我 们 在 file 结 构 中 增加 了 一 个 成 员 f_tia( 线 程 ID)。 这 段 代码 其 余部 分 与 图 16-15 类 似 。 


在 线程 版 本 中 我 们 不 再 使 用 select， 因 而 不 需要 任何 描述 符 集 或 变量 maxfd。 


36 ”所 调用 的 home_page 函 数 就 是 图 16-16， 没 有 改动 。 
图 26-14 给 出 main 线 程 的 主 处 理 循环 。 


threads/webQ1.c 
while (nlefttoread > 0) { 
while (nconn < maxnconn && nlefttoconn > 0) { 
/* find a file to read */ 
for (i = 0; i < nfiles; i++) 
if (file[i].f flags == 0) 
break; 
if (i == nfiles) 
err_quit ("nlefttoconn = %d but nothing found", nlefttoconn) ; 


file(i).f_flags = F_CONNECTING; 

Pthread create(&tid, NULL, &do get read, &file[il):; 
file[i].f tid - tid; 

nceomn++; 

nlefttoconn--; 


if ( (n = thr join(0, &tid, (void **) &fptr)) != 0) 
errno - n, err sys("thr join error"); 


nconn--; 
nlefttoread--; 


printf("thread id $d for $s done\n", tid, fptr-»f name); 
) 


exit(0); 


~ threads/web01.c 
图 26-14 ”main 函数 的 主 处 理 循环 
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若 可 能 则 创建 另 一 个 线程 

40-52 ”如 果 创 建 另 一 个 线程 的 条 件 (nconn 小 于 maxnconn) 能 够 满足 ， 我 们 就 创建 一 个 。 每 
个 新 线程 执行 的 函数 是 do_get_read， 传 递 给 它 的 参数 是 指向 Efile 结构 的 指针 。 

等 待 任何 一 个 线程 终止 

53-54 通过 指定 第 一 个 参数 为 0 调用 Solaris 线 程 函数 chr_join， 等 待 任何 一 个 线程 终止 。 不 幸 
的 是 ，Pthreads 没 有 提供 等 待 任 一 线程 终止 的 手段 ，pthread_join 函 数 "要 求 我 们 显 式 
指定 想 要 等 待 的 线程 。 我 们 将 在 26.9 节 看 到 ，Pthreads 解 决 本 问题 的 办 法 较为 复杂 ， 它 
要 求 使 用 条 件 变量 供 即将 终止 的 线程 通知 主线 程 自 身 何 时 终止 。 


我 们 给 出 的 使 用 Solaris 线 程 函 数 Fhr_join 的 办 法 难以 移植 到 所 有 环境 下 。 尽 管 如 此 ， 我 
们 在 展示 这 个 使 用 线程 的 Web 客 户 程 序 例子 时 ， 并 不 希望 因为 引入 条 件 变量 和 互 斥 锁 而 搞 复 
杂 对 它 的 讨论 .。 所幸 的 是 我 们 可 以 在 Solaris 环 境 下 混合 使 用 Pthreads 线 程 和 Solaris 线 程 。 


图 26-15 给 出 的 是 由 每 个 线程 执行 的 do_get_read 函 数 。 该 函数 建立 TCP 连 接 ， 给 服务 器 发 
送 一 个 HTTP GET 命 令 ， 并 读 入 来 自 服 务 器 的 应 答 。 








threads/web01.c 
61 void * 
62 do get read(void *vptr) 
63 ( 
64 int fd, n; 
65 char line[MAXLINE]; 
66 struct file *fptr; 
67 fptr - (struct file *) vptr; 
68 fd = Tcp connect(fptr-»f host, SERV); 
69 fptr-»f fd = fd; 
70 printf("do get read for $s, fd %d, thread d\n", 
71 fptr->f_name, fd, fptr->f_tid); 
72 write get cmd(fptr); /* write() the GET command */ 
73 /* Read server's reply */ 
74 for (;;)t 
75 if ( (n = Read(fd, line, MAXLINE)) -- 0) 
76 break; /* server closed connection */ 
77 printf("read %d bytes from %s\n", n, fptr-»f name); 
78 ) 
79 printf("end-of-file on %s\n", fptr-»f name); 
80 Close(fdà); 
81 fptr-»f flags = F. DONE; /* clears F READING */ 
82 return(fptr); /* terminate thread */ 
83 ] 
threads/web01.c 





图 26-15  do_get_readH XX 


(D HEP (Stevens) 曾 在 Usenet 上 抱怨 pthread join 不 能 等 待 任 一 线程 终止 ， 一 些 参与 过 Pthread 标 准 工 作 的 人 员 为 这 
个 设计 决策 辩解 说 ，pthread_join 不 可 能 每 个 人 想 怎么 样 就 怎么 样 。 他 们 还 辩解 说 ， 在 进程 模型 中 存在 父子 关系 ， 
因此 wait 或 waitpid 具 备 等 待 任 一 子 进程 的 能 力 是 有 意义 的 。 然 而 在 线程 环境 中 却 不 存在 类 似 父 与 子 的 层次 关系 ， 
因而 等 待 任 一 线程 终止 并 没有 意义 。 其 状态 由 某 个 等 待 任 一 线程 终止 之 类 函数 返回 的 线程 不 一 定 是 由 调用 线程 
创建 的 。 他 们 补充 说 ， 如 果 有 人 真 地 需要 等 待 任 一 线程 ， 那 也 可 以 使 用 条 件 变 量 实现 之 〈 并 不 简单 )， 就 如 我 们 
稍 后 给 出 的 那样 。 无 论 他 们 如 何 争 辨 ， 作 者 依然 认为 pthread_join 的 设计 存在 瑕 疫 。 
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创建 TCP 套 接 字 并 建立 连接 
68-71 调用 tcp_connect 函 数 创建 一 个 TCP 套 接 字 并 建立 一 个 连接 。 该 套 接 字 是 一 个 通常 的 阻 
塞 式 套 接 字 ， 因 此 线程 将 阻塞 在 connect 调 用 中 ， 直 到 连接 建立 。 
向 服务 器 写 出 请 求 
72 调用 write_get_cma 构 造 HTTP GET 命 令 并 把 它 发 送 到 服务 器 。 我 们 不 再 给 出 该 函数 的 
代码 ， 它 和 图 16-18 的 唯一 区 别 是 线程 版 本 不 调用 FDpD_sET， 也 不 使 用 maxfa。 
读 入 服务 器 的 应 答 
73-82 写 出 请 求 后 随即 读 入 服务 器 的 应 答 。 连 接 被 服务 器 关闭 时 设置 F_DONE 标 志 并 返回 ， 从 
而 终止 本 线程 。 
我 们 同样 没有 给 出 home_page 函 数 ， 因 为 它 和 图 16-16 给 出 的 版 本 一 样 。 
我 们 将 再 次 回 到 本 例子 ， 把 Solaris 的 thr_jocin 函 数 替换 成 移植 性 更 好 的 Pthreads 方 法 ， 不 
过 在 此 之 前 我 们 必须 首先 讨论 互 斥 锁 和 条 件 变量 。 





注意 图 26-14 中 ， 当 某 个 线程 终止 时 ， 主 循环 将 递减 nconn 和 nlefttoreadQ。 我 们 本 来 可 以 
把 这 两 个 递减 操作 放 在 do_get_read 函 数 中 ， 让 每 个 线程 在 即将 终止 之 前 递减 这 两 个 计数 器 。 
然而 这 么 做 却 是 一 个 微妙 而 重大 的 并 发 编程 错误 。 

把 计数 器 递减 代码 放 在 每 个 线程 均 执行 的 函数 中 的 问题 在 于 那 两 个 变量 是 全 局 的 ， 而 不 是 
特定 于 线程 的 。 如 果 一 个 线程 在 递减 某 个 变量 的 中 途 被 挂 起 ， 而 另 一 个 线程 执行 并 递减 同一 个 
变量 ， 那 就 可 能 导致 错误 。 举 例 来 说 ， 假 设 C 编 译 器 将 递减 运算 符 转 换 成 3 条 机 器 指令 : 从 内 存 
装载 到 寄存 器 、 递 减 寄存 器 、 从 寄存 器 存储 到 内 存 。 考 虑 如 下 可 能 的 情形 。 

(1) 线程 A 运行 ， 把 nconn 的 值 (3) 装载 到 一 个 寄存 器 。 

(2) 系统 把 运行 线程 从 A 切 换 到 B。A 的 寄存 器 被 保存 ，B 的 寄存 器 则 被 恢复 。 

(3) 线程 B 执 行 与 C 表 达 式 nccnn-- 相 对 应 的 3 条 指令 ， 把 新 值 2 存储 到 nconn。 

(4) 一 段 时 间 之 后 ， 系 统 把 运行 线程 从 B 切 换 回 A。A 的 寄存 器 被 恢复 ，A 从 原来 离开 的 地 方 
( 即 3 指令 序列 中 的 第 二 条 指令 ) 继续 执行 , 把 那个 寄存 器 的 值 从 3 递减 为 2, 再 把 值 2 存 储 到 nconn。 

最 终 的 结果 是 nconn 本 该 为 1 实际 却 为 2。 这 是 错误 的 运行 结果 。 

这 些 类 型 的 并 发 编程 错误 很 难 被 发 现 ， 其 原因 有 多 个 。 首 先 ， 这 些 编程 错误 导致 的 运行 差 
错 很 少 发 生 。 然 而 无 论 如 何 它 们 毕竟 是 错误 ， 总 会 导致 运行 差错 (Murphy's Law， 墨 菲 定律 )。 
其 次 ， 这 些 编程 错误 导致 的 运行 差错 难以 再 现 ， 因 为 运行 差错 取决 于 许多 事件 的 非 确定 定时 关 
系 。 最 后 ， 某 些 系统 上 递减 运算 符 的 硬件 指令 可 能 是 原子 的 ， 也 就 是 说 这 些 系统 中 存在 可 递减 
内 存 中 某 个 整数 的 单条 人 硬件 指令 (顶替 我 们 以 前 假设 的 3 指令 序列 )， 而 且 在 这 条 指令 的 执行 期 
内 硬件 不 能 被 中 断 。 当 然 我 们 不 可 能 保证 所 有 系统 都 是 如 此 ， 因 此 上 述 代码 会 发 生 在 一 个 系统 
上 起 作用 在 另 一 个 系统 上 却 不 起 作用 的 现象 。 

我 们 称 线程 编程 为 并 发 编程 (concurrent programming) 或 并 行 编程 (parallel programming), 
因为 多 个 线程 可 以 并 发 地 (或 并 行 地 ) 运行 且 访问 相同 的 变量 。 虽 然 我 们 刚 讨 论 的 错误 情形 以 
单 CPU 系 统 为 前 提 ， 但 是 如 果 线 程 A 和 和 B 同 时 运行 在 某 个 多 处 理 器 系统 的 不 同 CPU 上 ， 潜 在 的 运 
行 差错 仍然 可 能 发 生 。 对 于 通常 的 Unix 编 程 ， 我 们 不 会 碰 到 这 些 并 发 编程 问题 ， 因 为 调用 fork 
之 后 ， 父 子 进程 之 间 除了 描述 符 外 不 共享 任何 东西 。 然 而 当 我 们 讨论 在 进程 之 间 的 共享 内 存 区 
时 ， 仍 然 会 碰 到 同类 问题 。 
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我 们 可 以 使 用 线程 轻易 展现 这 个 问题 。 图 26-17 是 一 个 简单 的 程序 ， 它 创建 两 个 线程 ， 然 后 
让 每 个 线程 递增 同一 个 全 局 变量 5000 次 。 

为 了 强化 运行 时 刻 的 出 错 可 能 性 ， 我 们 先 取得 counter 的 当前 值 ， 再 显示 它 的 新 值 ， 然 后 
存储 这 个 新 值 。 运 行 这 个 程序 ， 我 们 得 到 如 图 26-16 所 示 的 输出 。 


4: 1 
4: 2 
4 3 
4 4 z 
线程 4 继续 如 此 执行 
4 517 
4: 518 E 
4: 518 线程 5 现在 执行 
4: 519 
4 520 7 
线程 5 继续 如 此 执行 
5 926 
5: 927 g 
4: 519 线程 4 现在 执行 ， 所 存储 值 是 错误 的 
4: 520 
图 26-16 ”图 26-17 中 程序 的 输出 
threads/example01.c 
1 #include “unpthread.h" 
2 #define NLOOP 5000 
3 int counter; /* incremented by threads */ 
4 void *doit (void *); 
5 int 
6 main(int argc, char **argv) 
7 
8 pthread_t tidA, tidB; 
9 Pthread_create(&tidA, NULL, &doit, NULL); 
10 Pthread_create(&tidB, NULL, &doit, NULL); 
11 /* wait for both threads to terminate */ 
12 Pthread join(tidA, NULL); 
13 Pthread, join(tidB, NULL); 
14 exit (0); 
15 } 
16 void * 
17 doit(void *vptr) 
18 ( 
19 int i, val; 
20 y* 
21 * Each thread fetches, prints, and increments the counter NLOOP times. 
22 * The value of the counter should increase monotonically. 
23 */ 
24 for (i = 0; i < NLOOP; i++) { 
25 val = counter; 
26 printf("%d: $dWMn", pthread self(), val + 1); 
27 counter = vàl + 1; 
28 } 
29 return (NULL) ; 
30 ) 
threads/example01.c 





图 26-17 ”两 个 线程 不 正确 地 递增 一 个 全 局 变量 
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请 注意 系统 首次 从 线程 4 切换 到 线程 5 时 发 生 的 错误 , 每 个 线程 存储 的 值 都 是 518。 这 种 错误 
在 10000 行 输出 中 发 生 了 许多 次 。 

如 果 我 们 运行 该 程序 若干 次 ， 这 种 类 型 问题 的 非 确定 本 性 就 同样 得 以 显现 ， 每 次 运行 的 最 
终结 果 都 不 同 于 前 一 次 运行 。 如 果 我 们 把 程序 的 输出 重 定向 到 磁盘 文件 ， 有 时 候 就 不 发 生 运行 
差错 ， 因 为 这 么 一 来 程序 运行 得 更 快 ， 所 提供 的 线程 间 切 换 机 会 也 更 少 。 我 们 试验 过 的 运行 差 
错 出 现 得 最 多 的 情形 是 : 交互 地 运行 该 程序 , 把 程序 的 输入 写 到 ( 慢 速 ) 终端 上 , 同时 使 用 Unix 
的 script 程 序 〈 在 APUE 第 19 章 中 详细 讨论 ) 把 整个 交互 过 程 的 输出 保存 到 一 个 文件 中 。 

我 们 刚才 讨论 的 多 个 线程 更 改 一 个 共享 变量 的 问题 是 最 简单 的 问题 。 其 解决 办 法 是 使 用 一 
个 互 斥 锁 (mutex， 代 表 mutual exclusion) 保护 这 个 共享 变量 ; 访问 该 变量 的 前 提 条 件 是 持 有 该 
互 斥 锁 。 按 照 Pthread， 互 斥 锁 是 类 型 为 pthread_mutex_t 的 变量 。 我 们 使 用 以 下 两 个 函数 为 一 
个 互 斥 锁 上 锁 和 解锁 。 


#include <pthread.h> 





int pthread mutex lock(pthread mutex t *mptr) ; 


int pthread mutex unlock(pthread mutex t *mptr); 
均 返 回 :， 若 成 功 则 为 0， 若 出 错 则 为 正 的 Exocx 值 








如 果 试 图 上 锁 已 被 另外 某 个 线程 锁 住 的 一 个 互 斥 锁 ， 本 线程 将 被 阻塞 ， 直 到 该 互 斥 锁 被 解 
锁 为 止 。 

如 果菜 个 互 斥 锁 变量 是 静态 分 配 的 ， 我 们 就 必须 把 它 初始 化 为 常 值 PTHREAD_MUTEX_ 
INITIALIZER。 我 们 将 在 30.8 节 看 到 ， 如 果 我 们 在 共享 内 存 区 中 分 配 一 个 互 斥 锁 ， 那 么 必须 通 
过 调用 bchreaa_mucex_init 函 数 在 运行 时 把 它 初始 化 。 


有 些 系统 (例如 Solaris ) 把 PTHRERAD_MUTEX_INTTIRALIZER 定 义 为 0， 因 而 忽略 这 个 初始 
化 步骤 可 以 接受 ,因为 静态 分 配 的 变量 被 自动 初始 化 为 0。 但 是 这 人 么 做 并 不 能 保证 可 以 被 普遍 
接受 ， 因 为 其 他 系统 ( 例如 Digital Unix) 把 初始 化 常 值 定 义 为 非 0。 


图 26-18 是 图 26-17 的 改正 版 本 ， 它 使 用 单个 互 斥 锁 保 护 由 两 个 线程 共同 访问 的 计数 器 。 


—————————— threads/example02.c 
1 #include "unpthread.h" 


2 #define NLOOP 5000 


3 int counter; /* incremented by threads */ 
4 pthread mutex t counter mutex - PTHREAD MUTEX INITIALIZER; 


5 void *doit(void *); 

6 int 

7 main(int argc, char **argv) 

8 í 

9 pthread t tidA, tidB; 

10 Pthread, create(&tidA, NULL, &doit, NULL); 
11 Pthread create(&tidB, NULL, &doit, NULL); 
12 /* wait for both threads to terminate */ 
13 Pthread_join(tidA, NULL); 

14 Pthread join(tidB, NULL); 

15 exit (0); 


图 26-18 ”使 用 互 斥 锁 保 护 共 享 变量 的 图 26-17 的 改正 版 本 
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16 ) 

17 void * 

18 doit(void *vptr) 

19 ( 

20 int i, val; 

21 J* 

22 * Fach thread fetches, prints, and increments the counter NLOOP times. 
23 * The value of the counter should increase monotonically. 
24 my 

25 for (i = 0; i < NLOOP; i++) { 

26 Pthread_mutex_lock (&counter_mutex) ; 

27 val = counter; 

28 printf("$d: %d\n", pthread_self(), val + 1); 

29 counter = val + 1; 

30 Pthread_mutex_unlock (&counter_mutex) ; 

31 } 

32 return (NULL) ; 

33 ) 


————— — — —  threads/example02.c 
图 26-18 (4) 


我 们 声明 一 个 名 为 counter_mutex 的 互 斥 锁 ， 线 程 在 操纵 counter 变 量 之 前 必须 锁 住 该 互 
斥 锁 。 无 论 何 时 运行 这 个 程序 ， 其 输出 总 是 正确 的 : 计数 器 值 被 单调 地 递增 ， 所 显示 的 最 终 值 
总 是 10000。 

使 用 互 斥 锁 上 锁 的 开销 有 多 大 呢 ? 把 图 26-17 和 图 26-18 中 的 程序 改 为 循环 50000 次 ， 并 在 把 
输出 定向 到 /aev/null 的 前 提 下 测量 时 间 。 没 有 互 斥 的 不 正确 版 本 和 使 用 互 斥 锁 的 正确 版 本 之 
间 的 CPU 时 间 差 别 是 10%。 这 个 结果 告诉 我 们 互 斥 锁 上 锁 并 没有 太 大 开销 。 
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互 斥 锁 适 合 于 防止 同时 访问 某 个 共享 变量 ， 但 是 我 们 需要 另外 某 种 在 等 待 某 个 条 件 发 生 期 
间 能 让 我 们 进入 睡眠 的 东西 。 让 我 们 凭借 一 个 例子 说 明 这 一 点 。 我 们 回 到 26.6 节 的 Web 客 户 程序 ， 
把 Solaris 的 thr_join 替 换 成 pthread_join。 然而 在 知道 某 个 线程 已 经 终止 之 前 , 我 们 无 法 调用 
这 个 Pthread 函 数 。 我 们 首先 声明 一 个 计量 已 终止 线程 数 的 全 局 变量 ,并 使 用 一 个 互 斥 锁 保护 它 。 





int ndone; /* number of terminated threads */ 
pthread mutex tndone mutex - PTHREAD MUTEX INITIALIZER; 

我 们 接着 要 求 每 个 线程 在 即将 终止 之 前 谨慎 使 用 所 关联 的 互 斥 锁 递 增 这 个 计数 器 。 
void * 


do get read(void *vptr) 
{ 


Pthread mutex lock(&ndone mutex); 
ndone++; 
Pthread_mutex_unlock (&ndone_mutex) ; 


return(fptr) ; /* terminate thread */ 
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问题 是 怎样 编写 主 循环 。 主 循环 需要 一 次 又 一 次 地 锁 住 这 个 互 斥 锁 以 便 检 查 是 否 有 任何 线 
程 终止 了 。 


while (nlefttoread > 0) ( 
while (nconn « maxnconn && nlefttoconn » 0) ( 
/* find a file to read */ 


) 


/* See if one of the threads is done */ 
Pthread mutex lock (&ndone, mutex) ; 
if (ndone > 0) { 
for (i = 0; i < nfiles; i++) { 
if (file[i].f flags & F DONE) { 
Pthread join(file[i].f tid, (void **) &fptr); 


/* update file[i] for terminated thread */ 
} 
} 
} 


Pthread mutex unlock (&ndone, mutex); 
) 


如 此 编写 主 循环 尽管 正确 ， 却 意味 着 主 循环 永远 不 进入 睡眠 ， 它 就 是 不 断 地 循环 ， 每 次 循 
环 回来 检查 一 下 naone。 这 种 方法 称 为 轮 询 〈polling)， 相 当 浪 费 CPU 时 间 。 

我 们 需要 一 个 让 主 循环 进入 睡眠 ， 直 到 某 个 线程 通知 它 有 事 可 做 才 醒 来 的 方法 。 条 件 变量 
(condition variable) 结合 互 斥 锁 能 够 提供 这 个 功能 。 互 斥 锁 提 供 互 斥 机 制 ， 条 件 变量 提供 信号 机 制 。 

按照 Pthread， 条 件 变量 是 类 型 为 pthread_cond _t 的 变量 。 以 下 两 个 函数 使 用 条 件 变 量 。 


#include <pthread.h> 


int pthread_cond_wait (pthread_cond_t *cptr, pthread_mutex_t *mptr); 


int pthread_cond_signa? (pthread_cond_t *optr); 
均 返 回 : 若 成 功 则 为 0， 若 出 错 则 为 正 的 Exxx 值 


第 二 个 函数 的 名 字 中 “signal” 一 词 并 不 指称 Unix 的 SIGxxx 信 号 。 
解释 这 些 函 数 最 容易 的 方法 是 举例 说 明 。 回 到 我 们 的 Web 客 户 程 序 例子 ， 现 在 我 们 给 计数 
器 naone 同 时 关联 一 个 条 件 变 量 和 一 个 互 斥 锁 。 


int ndone; 
pthread mutex t ndone mutex - PTHREAD MUTEX INITIALIZER; 
pthread cond t ndone cond = PTHREAD COND INITIALIZER; 


通过 在 持 有 该 互 斥 锁 期 间 递增 该 计数 器 并 发 送信 号 到 该 条 件 变 量 ， 一 个 线程 通知 主 循环 自 
身 即 将 终止 。 





Pthread mutex lock (&ndone mutex); 
ndone++; 

Pthread cond signal(&ndone cond); 
Pthread mutex unlock(&ndone mutex); 


主 循环 阻塞 在 pthreaa_cond_wait 调 用 中 ， 等 待 某 个 即将 终止 的 线程 发 送信 号 到 与 naone 
关联 的 条 件 变量 。 


while (nlefttoread > 0) ( 
while (nconn « maxnconn && nlefttoconn » 0) ( 
/* find a file to read */ 
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/* Wait for one of the threads to terminate */ 
Pthread mutex lock(&ndone mutex); 
while (ndone -- 0) 

Pthread cond wait(&ndone cond, &ndone mutex); 


for (i = 0; i < nfiles; i++) ( 
if (fileli).f_flags & F DONE) { 
Pthread join(file[i].f tid, (void **) &fptr); 


/* update file[i] for terminated thread */ 
) 


) 
Pthread_mutex_unlock (&ndone_mutex) ; 


注意 ， 主 循环 仍然 只 是 在 持 有 互 斥 锁 期 间 检 查 naone 变 量 。 然 后 ， 如 果 发 现 无 事 可 做 ， 那 
就 调用 pthreaq_cond_wait。 该 函数 把 调用 线程 投入 睡眠 并 释放 调用 线程 持 有 的 互 斥 锁 。 此 外 ， 
当 调用 线程 后 来 从 pthread_conqa_wait 返 回 时 《 其 他 某 个 线程 发 送信 号 到 与 naone 关 联 的 条 件 
变量 之 后 )， 该 线程 再 次 持 有 该 互 斥 锁 。 

为 什么 每 个 条 件 变量 都 要 关联 一 个 互 斥 锁 呢 ? 因为 “条 件 ” 通 常 是 线程 之 间 共 亭 的 某 个 变 
量 的 值 。 人 允许 不 同 线程 设置 和 测试 该 变量 要 求 有 一 个 与 该 变量 关联 的 互 斥 锁 。 举 例 来 说 ， 要 是 
刚才 给 出 的 例子 代码 中 我 们 没 用 互 斥 锁 ， 那 么 主 循环 将 如 下 测试 变量 ndaone。 


/* Wait for one of the threads to terminate */ 
while (ndone -- 0) 
Pthread, cond wait(&ndone cond, &ndone mutex); 


这 里 存在 如 此 可 能 性 : 主线 程 外 最 后 一 个 线程 在 主 循环 测试 naone==0 之 后 但 在 调用 
pthread_cond_wait 之 前 递增 ndone。 如 果 发 生 这 样 的 情形 ， 最 后 那个 “信号 ”就 丢失 了 ， 造 
成 主 循环 永远 阻塞 在 pthread_cond_wait 调 用 中 ， 等 待 永远 不 再 发 生 的 某 事 再 次 出 现 。 

同样 的 理由 要 求 pthread_cond_wait 被 调用 时 其 所 关联 的 互 斥 锁 必须 是 上 锁 的 , 该 函数 作 
为 单个 原子 操作 解锁 该 互 斥 锁 并 把 调用 线程 投入 睡眠 也 是 出 于 这 个 理由 。 要 是 该 函数 不 先 解锁 
该 互 斥 锁 ， 到 返回 时 再 给 它 上 锁 ， 亩 用 线程 就 不 得 不 事先 解锁 事后 上 锁 该 互 斥 锁 ， 测 试 变量 
ndone 的 代码 将 变 为 : 


/* Wait for one of the threads to terminate */ 
Pthread mutex lock(&ndone mutex); 
while (ndone -- 0) ( 
Pthread, mutex unlock(&ndone mutex); 
Pthread cond wait(&ndone cond, &ndone mutex); 
Pthread mutex lock (&ndone_mutext ) ; 
) 


然而 这 里 再 次 存在 如 此 可 能 性 : 主线 程 外 最 后 一 个 线程 在 主线 程 调用 pthread mutex_ 
unlock 和 和 和 pthread_cond_wait 之 间 终 止 并 递增 ndone 的 值 。 

pthreadG_cond_signal 通 常 唤 醒 等 在 相应 条 件 变量 上 的 单个 线程 。 有 时 候 一 个 线程 知道 自 
己 应 该 唤醒 多 个 线程 ， 这 种 情况 下 它 可 以 调用 pthreaq_cona_broadacast 唤 醒 等 在 相应 条 件 变 
量 上 的 所 有 线程 。 


#include «pthread.h» 





int pthread cond broadcast (pthread cond t *optr); 


int pthread cond timedwait(pthread cond t *cptr, pthread mutex t *mptr, 
const struct timespec *abstime) ; 


HEE: 若 成 功 则 为 0， 若 出 错 则 为 正 的 Exxx 值 
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pthread cond timedwait 人 允许 线程 设置 一 个 阻 寨 时 间 的 限制 。 abstime 是 一 个 timespec 
结构 (我 们 已 在 6.9 节 随 pselect 函 数 定义 过 该 结构 )， 指 定 该 函数 必须 返回 时 刻 的 系统 时 间 ， 即 
使 到 时 候 相应 条 件 变量 尚未 收 到 信号 。 如 果 发 生 这 样 的 超时 ， 那 就 返回 ETIME 错 误 。 

这 个 时 间 值 是 一 个 绝对 时 间 Cabsolute time)， 而 不 是 一 个 时 间 增 量 Ctime delta)。 也 就 是 说 
abstime 参 数 是 函数 应 该 返回 时 刻 的 系统 时 间 一 一 从 1970 年 1 月 1 日 UTC 时 间 以 来 的 秒 数 和 纳 秒 
数 。 这 一 点 不 同 于 select 和 pselect， 它 们 指定 的 是 从 调用 时 刻 开始 到 函数 应 该 返回 时 刻 的 秒 
数 和 微 秒 数 〈( 对 于 pselect 为 纳 秒 数 )。 通 常 采 用 的 过 程 是 : 调用 gettimeofday 获 取 当 前 时 间 
(作为 一 个 timeval 结 构 )， 把 它 复制 到 一 个 timespec 结 构 中 ， 再 加 上 期 望 的 时 间 限 制 。 例 如 : 

struct timeval tv; 


struct timespec ts; 


if (gettimeofday(&tv, NULL) < 0) 
err Sys("gettimeofday error"); 

ts.tv sec = tv.tv sec + 5; /* 5 seconds in future */ 

ts.tv nsec - tv.tv usec * 1000; /* microsec to nanosec */ 

pthread cond timedwait( ... , &ts); 

使 用 绝对 时 间 取 代 增 量 时 间 的 优点 是 ,如果 该 函数 过 早 返回 (可 能 是 因为 捕获 了 某 个 信号 )， 
那么 不 必 改 动 timespec 结 构 参 数 的 内 容 就 可 以 再 次 调用 该 函数 , 缺点 是 首次 调用 该 函数 之 前 不 
得 不 调用 gettimeofday。 


POSIX 规 范 定义 了 一 个 名 为 clock_gettime 的 函数 ， 它 把 当前 时 间 返 回 为 一 个 imespec 
结构 ， 
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我 们 现在 重新 编写 26.6 节 的 Web 客 户 程序 ， 把 其 中 对 于 Solaris 之 thr_join 函 数 的 调用 替换 
成 调用 pthread_join。 正 如 那 节 所 述 ， 这么 一 来 我 们 必须 明确 指定 等 待 哪 一 个 线程 。 为 了 做 到 
这 一 点 ， 我 们 就 像 26.8 节 讲解 的 那样 使 用 条 件 变 量 。 

全 局 变量 图 26-13) 的 唯一 变动 是 增加 一 个 新 标志 和 一 个 条 件 变量 。 


#define F_JOINED 8 /* main has pthread_join'ed */ 

int ndone; /* number of terminated threads */ 
pthread_mutex_t ndone mutex = PTHREAD MUTEX INITIALIZER; 
pthread cond t ndone, cond = PTHREAD COND INITIALIZER; 


do_get_read 函 数 〈 图 26-15) 的 唯一 变动 是 在 本 线程 终止 之 前 递增 naone 并 通知 主 循环 。 


printf("end-of-file on %s\n", fptr-»f name); 
Close (£d); 


Pthread_mutex_lock (&ndone_mutex) ; 

fptr->f_flags = F DONE; /* clears F_READING */ 
ndone++; 

Pthread_cond_signal (&ndone_cond) ; 
Pthread_mutex_unlock (&ndone_mutex) ; 


return(fptr); /* terminate thread */ 
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大 多 数 变 动 发 生 在 主 循环 中 (图 26-14)， 图 26-19 给 出 主 循环 的 新 版 本 。 





threads/web03.c 

43 while (nlefttoread » 0) ( 
44 while (nconn < maxnconn && nlefttoconn > 0) { 
45 /* find a file to read */ 
46 for (i = 0; i < nfiles; i++) 
47 if (file[i].f flags == 0) 
48 break; 
49 if (i == nfiles) 
50 err quit("nlefttoconn - $d but nothing found", nlefttoconn); 
51 file[i].f flags = F. CONNECTING; 
52 Pthread create(&tid, NULL, &do get read, &file[i]); 
53 file[i].f tid - tid; 
54 nconn++; 
55 nlefttoconn--; 
56 ) 
57 /* Wait for thread to terminate */ 
58 Pthread mutex lock(&ndonre mutex); 
59 while (ndone -- 0) 
60 Pthread cond wait (&ndone cond, &ndone mutex); 
61 for (i = 0; i < nfiles; i++) ( 
62 if (file[i].f flags & F_DONE) ( 
63 Pthread join(file[i].f tid, (void **) &fptr); 
64 if (&file[i] != fptr) 
65 err quit("file(i] !- fptr"); 
66 fptr-»f flags = F JOINED; /* clears F DONE */ 
67 ndone--; 
68 nconn--; 
69 nlefttoread--; 
70 printf ("thread $d for %s done\n", fptr->f_tid, fptr-»f name); 
71 } 
72 } 
73 Pthread_mutex_unlock (&ndone_mutex) ; 
74 } 
75 exit (0); 
76 } 

~ threads/web03.¢ 
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若 可 能 则 创建 另 一 个 线程 

44~56 ”这 段 代码 没有 变动 。 

等 待 任何 一 个 线程 终止 

57-60 “为 了 等 待 某 个 线程 终止 ， 我 们 等 待 naone 变 为 非 0。 正 如 26.8 节 所 述 ， 这 个 测试 必须 在 
锁 住 所 关联 互 斥 锁 期 间 进 行 。 睡 眠 由 pthread_cond_wait 执 行 。 

处 理 终止 的 线程 

61-73 ” 当 发 现 某 个 线程 终止 时 , 我 们 遍历 所 有 file 结 构 找 出 这 个 线程 , 再 调用 pthread_join， 
然后 设置 新 的 F_JOINED 标 志 。 

我 们 已 在 图 16-20 中 与 使 用 非 阻塞 connect 的 Web 客 户 程序 版 本 一 道 给 出 了 本 版 本 的 时 间 
性 能 。 
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创建 一 个 新 线程 通常 比 使 用 fork 派 生 一 个 新 进程 快 得 多 。 仅 仅 这 一 点 就 能 够 体现 线程 在 繁 
重 使 用 的 网 络 服务 器 上 的 优势 。 然 而 线程 编程 是 一 个 新 的 编程 范式 ， 需 要 有 所 训练 。 

同一 进程 内 的 所 有 线程 共享 全 局 变量 和 描述 符 ， 从 而 允许 不 同 线程 之 间 共 享 这 些 信息 。 然 
而 这 种 共享 却 引 入 了 同步 问题 ， 我 们 必须 使 用 的 Pthread 同 步 原 语 是 互 斥 锁 和 条 件 变 量 。 共 享 数 
据 的 同步 几乎 是 每 个 线程 化 应 用 程序 必 不 可 少 的 部 分 。 

编写 能 够 被 线程 化 应 用 程序 调用 的 函数 时 ， 这 些 函 数 必须 做 到 线程 安全 。 有 助 于 做 到 这 一 
点 的 一 个 技巧 是 线程 特定 数据 ， 我 们 通过 改写 readl ine 函 数 展示 了 这 样 的 一 个 例子 。 

我 们 将 在 第 30 章 中 重新 问 到 线程 模型 ， 讨 论 另外 一 个 服务 器 程序 设计 范式 : 服务 器 在 启动 
时 创建 一 个 线程 池 ， 下 一 个 客户 请 求 就 由 该 池 中 某 个 闲置 的 线程 来 处 理 。 


习题 

26.1 假设 同时 服务 100 个 客户 ， 比 较 使 用 fork 的 一 个 服务 器 和 使 用 线程 的 一 个 服务 器 所 用 的 描述 符 量 。 

262 图 26-3 中 如 果 线 程 在 str_echo 返 回 之 后 不 关闭 各 自 的 已 连接 套 接 字 ， 将 会 发 生 什 么 ? 

26.3 在 图 3-5 和 图 6-13 中 ， 当 期 待 服务 器 回 射 某 个 文本 行 而 收 到 的 却 是 EOF 时 ， 客 户 就 显示 “server 
terminated prematurely(〈 服 务 器 过 早 终止 )”( 回 顾 5.12 节 )。 把 图 26-2 改 为 也 在 合适 的 时 候 显示 这 条 消 
息 。 

26.4 把 图 26-11 和 图 26-12 改 为 能 够 在 不 支持 线程 的 系统 上 编译 通过 。 

265 为 了 观察 图 3-18 的 readline 函 数 版 本 用 于 图 26-3 的 线程 化 程序 时 表现 出 来 的 错误 ， 构 造 这 个 TCP 回 
射 服务 器 程序 并 启动 运行 。 然 后 构造 能 够 以 批量 方式 正确 工作 的 来 自 图 6-13 的 TCP 回 射 客户 程序 。 
在 自己 的 系统 上 找到 一 个 元 长 的 文本 文件 ， 在 批量 方式 下 启动 运行 客户 3 次 ， 让 它们 从 这 个 文本 文 
件 中 读 且 把 输出 写 到 各 自 的 临时 文件 中 。 要 是 可 能 ， 在 不 同 于 服务 器 所 在 主机 的 另 一 个 主机 上 运行 
这 些 客户 。 如 果 这 些 客户 正确 地 终止 〈 它 们 往往 挂 起 )， 那 就 查看 它们 的 临时 输出 文件 ， 并 和 输入 
文件 进行 比较 。 
现在 构造 一 个 使 用 来 自 26.5 节 的 readline 函 数 线程 安全 版 本 的 TCP 回 射 服务 器 程序 。 重 新 以 3 个 客 
户 运行 上 述 测试 ; 这 回 它们 都 应 该 工作 。 你 还 应 该 分 别 在 readline_destructor 函 数 和 readline_ 
once 函 数 中 以 及 readline 中 的 malloc 调 用 ?处 放置 一 个 printf。 由 它们 的 输出 可 以 证 实 键 只 被 某 
个 线程 一 次 性 地 创建 ， 但 是 每 个 线程 都 各 自分 配 了 内 存 空 间 并 调用 了 析 构 函数 。 


@ 第 3 版 新 作者 在 图 26-12 中 改 用 calloc 调 用 ， 只 是 为 了 用 上 calloc 可 能 影响 效率 的 初始 化 特性 。 一 一 译 者 注 
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27.1 概述 


IPv4 人 允许 在 20 字 节 首 部 固定 部 分 之 后 跟 以 最 多 共 40 个 字 节 的 选项 。 尽 管 已 经 定义 的 IPv4 选 
项 共有 10 种 ， 最 常用 的 却 是 源 路 径 选项 。 这 些 选项 的 访问 途径 是 存 取 IP_0PTIONS 套 接 字 选项 ， 
我 们 将 以 一 个 使 用 源 路 由 的 例子 展示 这 个 访问 方式 。 

IPv6 人 允许 在 固定 长 度 的 40 字 节 IPv6 首 部 和 传输 层 首部 〈 例 如 ICMPv6、TCP 或 UDP) 之 间 出 
现 扩 展 首部 Cextension header)。 目 前 定义 了 6 种 不 同 的 扩展 首部 。 不 同 于 IPv4 的 是 ，IPv6 扩 展 首 
部 的 访问 途径 是 函数 接口 ， 而 不 是 强求 用 户 理解 这 些 首部 如 何 呈 现在 IPv6 分 组 中 的 真实 细节 。 


27.2 IPv4 选项 


我 们 在 图 A-1 中 展示 出 IPv4 的 选项 (options) 字段 跟 在 20 字 节 IPv4 首 部 固定 部 分 之 后 。 我 们 
在 A.2 节 指出 ，4 位 的 首部 长 度 字 段 把 PPv4 首 部 的 总 长 度 限 制 为 15 个 32 位 字 〈60 字 节 )， 因 此 IPv4 
选项 字段 最 长 为 40 个 字 节 。IPv4 定 义 了 10 种 不 同 的 选项 。 

(1) NOP: no-operation。 单 字 节 选项 ， 典 型 用 途 是 为 某 个 后 续 选 项 落 在 4 字 节 边 界 上 提供 填 
充 。 

(2) EOL: end-of-list。 单 字 节选 项 ， 终 止 选项 的 处 理 。 既 然 各 个 IP 选 项 的 总 长 度 必须 为 4 字 
节 的 倍数 ， 因 此 最 后 一 个 有 效 选 项 之 后 可 能 跟 以 0 一 3 个 EOL 字 节 。 

(3) LSRR: loose source and record route (TCPv1 的 8.5 节 )。 我 们 稍 后 给 出 使 用 本 选项 的 一 个 
例子 。 

(4) SSRR: strict source and record route 《TCPv1 的 8.5 节 ): 我 们 稍 后 给 出 使 用 本 选项 的 一 个 
例子 。 

(5) Timestamp (TCPv1 的 7.4 节 )。 

(6) Record route (TCPv1 的 7.3 节 )。 

(7) Basic security (E/E BE). 

(8) Extended security 〈 已 作废 )。 

(9) Stream identifier (EE BE). 

(10) Router alert。 这 是 在 RFC 2113 [Katz 1997] 中 叙述 的 一 种 选项 。 包 含 该 选项 的 IP 数 据 
报 要 求 所 有 转发 路 由 器 都 查看 其 内 容 。 

TCPv2 第 9 章 提 供 了 关于 内 核 如 何 处 理 前 6 种 选项 的 具体 细节 ， 上 面 指出 的 TCPv1 相 关 章 节 
给 出 了 如 何 使 用 它们 的 例子 。RFC 1108 [Kent 1991] 给 出 了 关于 那 2 种 安全 选项 的 细节 ， 它 们 
未 得 到 广泛 使 用 。 

读 取 和 设置 IP 选 项 字段 使 用 getsockopt 和 setsockopt (level 参 数 为 TPPROTO_IP, optname 
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参数 为 IP_OPTIONS)。 这 两 个 函数 的 第 四 个 参数 是 指向 某 个 缓冲 区 《其 大 小 小 于 等 于 44 字 节 ) 
的 一 个 指针 ， 第 五 个 参数 是 该 缓冲 区 的 大 小 。 该 缓冲 区 的 大 小 之 所 以 可 以 比 选项 字段 的 最 大 长 
度 多 出 4 个 字 节 是 由 源 路 径 选项 的 处 理 方 式 使 然 , 我 们 稍 后 就 会 讲解 到 .除了 两 种 源 路 径 选 项 外 ， 
其 他 选项 在 该 缓冲 区 中 的 格式 就 是 把 它们 置 于 IP 数 据 报 中 的 格式 。 

使 用 setsockopt 设 置 IP 选 项 之 后 ， 在 相应 套 接 字 上 发 送 的 所 有 IP 数 据 报 都 将 包括 这 些 选 
项 。 可 以 在 其 上 设置 IP 选 项 的 套 接 字 包 括 TCP、UDP 和 原始 IP 套 接 字 。 清 除 这 些 选项 同样 使 用 
setsockopt， 只 是 既 可 把 第 四 个 参数 指定 为 空 指针 ， 也 可 把 第 五 个 参数 〈 长 度 ) 指定 为 0。 

对 于 已 经 设置 了 ITP_HDRINCL 矢 接 字 选项 (我 们 将 在 下 一 章 中 讲解 该 选项 ) 的 一 个 原始 IP 
套 接 字 ， 并 非 所 有 实现 都 支持 再 为 它 设置 JP 选项。 许多 源 自 Berkeley 的 实现 在 TP_HDRINCL 选 
项 开启 时 不 发 送 使 用 TP_OPTIONS 设 置 的 IP 选 项 , 因为 应 用 进程 可 能 在 它 构造 的 IP 首 部 中 设置 
了 它 自 己 的 人 P 选 项 (TCPv2 第 1056 ~ 1057 行 ) 。 其 他 系统 ( 例如 FreeBSD ) 允许 应 用 进程 或 者 
使 用 IP_OPTIONS 套 接 字 选项 设置 IP 选 项 ， 或 者 通过 开启 ITP_HDRINCL 并 在 自己 构造 的 人 P 首 部 
中 包括 IP 选 项 达到 设置 目的 ， 不 过 不 能 混合 使 用 这 两 种 方式 。 

当 调 用 get sockopt 获 取 由 accept 创 建 的 某 个 已 连接 TCP 套 接 字 的 中 选项 时 ， 返 回 的 是 在 相 
应 监听 套 接 字 上 收 到 的 客户 SYN 分 节 所 在 下 数据 报 中 可 能 出 现 的 源 路 径 选 项 的 逆转 (TCPv2 第 931 
页 )。 源 路 径 被 TCP 自 动 逆 转 顺序 , 因为 由 客户 指定 的 是 从 客户 到 服务 器 的 源 路 径 , 服务 器 却 需 要 
在 发 送 到 客户 的 数据 报 中 使 用 该 路 径 的 逆转 。 如 果 没 有 源 路 径 伴 随 SYN 分 节 , 那么 由 get sockopt 
通过 第 五 个 参数 返回 的 “和 值 -结果 ”长 度 为 0。 对 于 所 有 其 他 TCP 套 接 字 及 所 有 UDP 套 接 字 和 原始 
IP 套 接 字 而 言 , 调用 get sockopt 获取? 选项 返回 的 仅仅 是 以 前 对 于 同一 个 套 接 字 调 用 set sockopt 
设置 的 下 选项 的 一 个 副本 。 注 意 对 于 一 个 原始 IP 套 接 字 ， 输 入 函数 总 是 返回 包括 任何 耻 选 项 在 内 
的 接收 中 首部 (也 就 是 到 达 IP 首 部 )， 因 此 接收 IP 选 项 (也 就 是 到 达 IP 选 项 ) 也 总 是 可 得 的 。 

源 自 Berkeley 的 内 核 ? 从 来 不 为 UDP 套 接 字 返 回 所 收取 的 源 路 径 选 项 或 其 他 任何 IP 选 项 。 
TCPv2 第 775 页 所 示 的 返回 IP 选 项 的 的 代码 从 BSD4.3 Reno 以 来 一 直 存 在 ， 不 过 因为 不 起 作用 而 
总 是 被 注释 掉 . 这 使 得 UDP 接 收 进程 不 可 能 在 返 送 回 发 送 进程 的 数据 报 中 使 用 接收 路 径 的 送 转 .。 
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源 路 径 (source route) 是 由 也 数 据 报 的 发 送 者 指定 的 一 个 下 地 址 列表 。 如 果 源 路 径 是 严格 
的 《strict)， 那 么 数据 报 必 须 且 只 能 逐一 经 过 所 列 的 节点 。 也 就 是 说 列 在 源 路 径 中 的 所 有 节点 必 
须 前 后 互 为 邻居 。 如 果 源 路 径 是 宽松 的 (loose)， 那 么 数据 报 必 须 逐 一 经 过 所 列 的 节点 ， 不 过 
也 可 以 经 过 未 列 在 源 路 径 中 的 其 他 节点 。 


IPv4 的 源 路 由 是 有 争议 的 。 尽 管 它 可 能 对 网 络 排 障 非 常 有 用 ， 却 也 可 能 被 用 于 “ 源 地 址 
欺骗 ”等 攻击 之 中 。 [ Cheswick, Bellovin, and Rubin 2003 ] 倡议 在 所 有 路 由 器 上 禁用 该 特性 ， 
许多 组 织 机 构 和 服务 提供 商 也 这 么 做 了 。 源 路 由 的 合理 用 途 之 一 是 使 用 traceroute 程 序 检 
测 非 对 称 的 路 径 ， 就 像 TCPv1 第 108 ~ 109 页 展示 的 那样 ， 然 而 随 着 因特网 上 有 越 来 越 多 的 路 
由 器 禁用 源 路 由 , 这 个 用 途 也 将 消失 。 不 过 无 论 如 何 指 定 和 收取 源 路 径 是 套 接 字 API 的 部 分 内 
容 ， 因 而 仍然 需要 讲解 。 


(D 许多 源 自 Berkeley 的 内 核 在 为 原始 IP 套 接 字 调 用 getsockopt 和 setsockcpt 时 发 生 恐 慌 (panic， 即 系统 停机 )。 


普通 用 户 无 法 使 用 该 手段 攻击 系统 ， 因 为 创建 原始 IP 套 接 字 要 求 具 备 超级 用 户 权限 ， 而 超级 用 户 权 限 的 拥有 者 
本 来 就 可 以 对 系统 进行 更 为 恶意 的 活动 。 
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IPv4 源 路 径 称 为 源 和 记录 路 径 (source and record routes，SRR， 其 中 LSRR 表 示 宽 松 的 选项 ， 
SSRR 表 示 严 格 的 选项 )， 因 为 随 着 数据 报 逐 一 经 过 所 列 的 节点 ， 每 个 节点 都 把 列 在 源 路 径 中 的 
自己 的 地 址 替换 为 外 出 接口 的 地 址 。SRR 人 允许 接收 者 逆转 新 的 列表 的 顺序 ， 得 到 沿 相 反方 向 回 
到 发 送 者 的 路 径 。TCPv1 的 8.5 节 给 出 了 LSRR 和 SSRR 这 两 种 源 路 径 的 例子 以 及 相应 的 tcpdump 
输出 。 

我 们 把 源 路 径 指 定 为 一 个 IPv4 地 址 数组 ， 并 冠 以 3 个 单字 节 字 段 ， 如 图 27-1 所 示 。 这 就 是 我 
们 传递 给 setsockopt 的 缓冲 区 的 格式 。 

e— — 一 一 一 44 字 节 | 
oe vo | vom | em |= [ome Due 
1 1 1 1 4 字 节 4 字 节 4 字 节 4 字 节 4 字 节 
图 27-1 ”向 内 核 传 递 的 源 路 径 


我 们 在 源 路 径 选 项 之 前 放置 一 个 NOP 选 项 , 使 得 所 有 IP 地 址 在 各 自 的 4 字 节 边界 对 齐 。 这么 
做 并 非 必须 ， 不 过 无 须 占用 额外 空间 《IP 选 项 总 是 填充 成 4 字 节 的 倍数 )， 还 对 齐 了 地 址 。 
我 们 在 图 中 展示 的 源 路 径 最 多 有 10 个 人 P 地 址 ， 不 过 所 列 的 第 一 个 地 址 将 在 相应 套 接 字 的 每 
个 外 出 IP 数 据 报 即 将 离开 源 主机 之 际 被 移出 源 路 径 选 项 ， 并 成 为 PP 数据 报 的 目的 地 址 。 尽 管 40 
字 节 的 中 选项 空间 〈 别 忘 了 我 们 马上 讲解 的 3 字 节 选项 首部 所 占 空间 ) 只 能 存放 9 个 人 P 地 址 ， 如 
果 把 目的 地 址 字段 也 包括 在 内 ， 那 么 IPv4 首 部 中 实际 上 有 10 个 IP 地 址 。 
code 字 段 对 于 LSRR 为 0x83， 对 于 SSRR 为 0x89。len 字 段 用 于 指定 选项 的 字 节 长 度 ， 包 括 3 
字 节 选项 首部 和 处 于 末尾 的 额外 的 最 终 上 且 的 地 址 (该 地 址 不 属于 源 路 径 )。 对 于 由 1 个 I 人 P 地 址 构 
成 的 源 路 径 len 为 11， 对 于 由 2 个 IP 地 址 构成 的 源 路 径 len 为 15， 以 此 类 推 ， 直 到 由 9 个 IP 地 址 构成 
的 源 路 径 len 为 最 大 值 43。NOP 不 属于 本 SSR 选 项 ( 它 自 成 一 个 单字 节 IP 选 项 )， 因而 不 包括 在 len 
字段 的 涵盖 范围 之 内 , 不 过 包括 在 给 setsockopt 指 定 的 缓冲 区 大 小 之 中 。 当 源 路 径 地 址 列表 中 
的 第 一 个 地 址 被 移 走 并 置 于 卫 首 部 的 目的 地 址 字段 时 ， 这 个 /en 值 被 减 去 4 (TCPv2 图 9-32 和 图 
9-33 )。Pptr 是 一 个 指针 ， 也 就 是 路 径 中 下 一 个 待 处理 IP 地 址 的 偏 移 量 ， 初 始 值 为 4， 表 示 指 向 第 
一 个 下 地 址 。 该 字段 的 值 随 着 下 数据 报 被 每 个 所 列 节点 处 理 而 逐次 加 上 4。 
我 们 现在 开发 3 个 函数 ， 分 别 初始 化 、 创 建 和 处 理 一 个 源 路 径 选项 。 这 些 函 数 只 处 理 源 路 径 
IP 选 项 。 尽 管 源 路 径 结 合 其 他 下 选项 〈 例 如 路 由 器 警告 ) 也 是 可 能 的 ， 但 这 样 的 组 合 很 少 使 用 。 
图 27-2 是 第 一 个 函数 inet_srcrt_init 以 及 用 于 构造 选项 内 容 的 一 些 静 态 变量 。 
初始 化 
10~17 ”分配 一 个 最 大 长 度 (44 字 节 ) 的 缓冲 区 并 将 它 清 零 。EOL 选 项 的 值 为 0%， 因 此 清 零 操作 
把 整个 选项 缓冲 区 初始 化 为 EOL 字 节 。 接 着 按照 图 27-1 设 置 源 路 径 选 项 首部 ， 包 括 用 
于 对 齐 的 NOP、 源 路 径 类 型 (LSRR 或 SSRR)、 长 度 和 指针 。 保 存 指向 len 字 段 的 一 个 
指针 ， 以 后 每 往 地 址 列表 中 加 入 一 个 地 址 ， 就 在 该 字段 中 存 入 新 值 。 把 指向 选项 缓冲 
区 的 指针 返回 给 调用 者 ， 以 便 作为 第 四 个 参数 传递 给 set sockopt. 
下 一 个 函数 inet_srcrt_add〔 见 图 27-3) 把 一 个 IPv4 地 址 加 到 正在 构建 的 源 路 径 上 。 
参数 
19-20 ”参数 指向 一 个 主机 名 或 一 个 点 分 十 进 制 数 串 人 P 地 址 。 
检查 溢出 
25-26 ”我 们 检查 尚未 指定 过 多 的 地 址 ， 如 果 这 是 第 一 个 地 址 则 将 其 初始 化 。 
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一 ipopts/sourceroute.c 








1 #include "unp.h" 

2 #include «netinet/in systm.h» 

3 #include «netinet/ip.h» 

4 static u char *optr; /* pointer into options being formed */ 

5 static u char *lenptr; /* pointer to length byte in SRR option */ 

6 static int ocnt; /* count of # addresses */ 

7 u char * 

8 inet srcrt init(int type) 

9í( 

10 optr - Malloc(44); /* NOP, code, len, ptr, up to 10 addresses */ 

1i bzero(optr, 44); /* guarantees EOLs at end */ 

12 ocnt = 0; 

13 *optr++ = IPOPT_NOP; /* NOP for alignment */ 

14 *optr++ = type ? IPOPT_SSRR : IPOPT_LSRR; 

15 lenptr = optr++; /* we fill in length later */ 

16 *optr++ = 4; /* offset to first address */ 

17 return(optr - 4); /* pointer for setsockopt() */ 

18 ) 
ipopts/sourceroute.c 

图 27-2 inet srcrt initPE: 为 构建 一 个 源 路 径 进行 初始 化 

ipopts/sourceroute.c 

19 int 

20 inet srcrt add(char *hostptr) 

21 f 

22 int len; 

23 struct addrinfo *ai; 

24 struct sockaddr in *sin; 

25 if (ocnt » 9) 

26 err quit("too many source routes with: %s", hostptr); 

27 ai - Host serv(hostptr, NULL, AF INET, 0); 

28 sin = (struct sockaddr in *) ai-»ai addr; 

29 memcpy(optr, &sin-»sin addr, sizeof(struct in addr)); 

30 freeaddrinfo (ai); 

31 optr += sizeof(struct in_addr); 

32 ocnt++; 

33 len = 3 + (ocnt * sizeof(struct in_addr)); 

34 *lenptr = len; 

35 return(len + 1); /* size for setsockopt() */ 

36 } 

一 -一 ipopts/sourceroute.c 


图 27-3 inet_srcrt_add 函 数 ， 向 源 路 径 加 入 一 个 IPv4 地 址 


取得 二 进 制 I|P 地 址 并 存 入 路 径 
27-35 ”调用 我 们 的 host_serv 函 数 转 换 主机 名 或 点 分 十 进 制 数 串 ， 并 把 最 终 的 二 进 制 地 址 存 
入 路 径 地 址 列表 。 更 改 1len 字 段 的 值 ， 返 回 缓冲 区 的 总 长 度 (包括 NOP)， 以 便 调用 者 把 
它 作 为 第 五 个 参数 传递 给 set sockopt。 
通过 get sockopt 调 用 返回 给 应 用 进程 的 接收 源 路 径 格 式 不 同 于 图 27-1 所 示 的 发 送 源 路 径 。 
图 27-4 展 示 了 接收 格式 。 
首先 ， 地 址 的 顺序 是 所 收取 的 源 路 径 被 内 核 逆转 后 的 顺序 。 这 里 “逆转 ” 指 的 是 如 果 所 收 
取 的 源 路 径 按 顺序 包括 A、B、C 和 D 四 个 地 址 ， 该 路 径 的 逆转 顺序 就 是 D、C、B 和 A。 头 4 个 字 
节 是 该 列表 的 第 一 个 人 P 地 址 ， 后 跟 一 个 单字 节 NOP (为 了 对 齐 )， 再 跟 以 3 字 节 源 路 径 选项 首部 ， 
最 后 跟 以 其 余 的 IP 地 址 。3 字 节选 项 首部 之 后 最 多 可 跟 以 9 个 JP 地址 ， 所 返回 首部 中 1en 字 段 相应 
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的 最 大 值 为 39。NOP 始 终 存 在 ， 因 此 由 getsockopt 返 回 的 长 度 于 是 总 为 4 字 节 的 倍数 。 
pe 一 一 44 字 节 一 一 
Cre epe peIe me Ta 
4 字 节 r — 1! 1 4 字 节 4 字 节 4 字 节 4 字 节 
图 27-4 ”getsockopt 返 回 的 源 路 径 选 项 格式 


图 27-4 所 示 的 格式 在 <net inet /ip_var.h> 头 文件 中 定义 为 如 下 结构 : 
#define MAX IPOPTLEN 40 


struct ipoption{ 
struct in_addr ipopt, dst; /* first hop dst if source routed */ 
char ipopt, list[MAX IPOPTLEN]; /* options proper*/ 
}; 


在 图 27-5 中 ， 我 们 发 现 自行 分 析 数据 同样 容易 ， 于 是 没有 使 用 这 个 结构 。 

这 个 返回 的 格式 不 同 于 我 们 传递 给 setsockopt 的 格式 。 如 果 想 要 把 图 27-4 中 的 格式 转换 到 
图 27-1 中 的 格式 , 我 们 就 必须 对 换 头 4 个 字 节 和 随后 的 4 个 字 节 ， 再 给 len 字 段 加 上 4。 所 幸 的 是 我 
们 并 非 必须 这 人 么 做 ， 因 为 源 自 Berkeley 的 实现 对 于 TCP 套 接 字 自动 使 用 来 自 SYN 所 在 IP 数 据 报 的 
接收 源 路 径 的 逆转 。 换 句 话 说， 图 27-4 展 示 的 由 getsockopt 返 回 的 源 路 径 信息 纯粹 用 于 了 解 目 
的 。 我 们 不 必 调 用 setsockopt 告 诉 内 核 使 用 该 路 径 发 送 相 应 TCP 连 接 上 的 外 出 了 数据 报 ， 内 核 
自动 这 么 做 了 。 我 们 稍 后 随 TCP 回 射 服务 器 程序 的 修改 查看 这 样 的 一 个 例子 。 

下 一 个 源 路 径 函 数 取 得 图 27-4 所 示 格 式 的 一 个 接收 源 路 径 并 显示 该 信息 。 图 27-5 给 出 了 这 
个 名 为 inet_srcrt_print 的 函数 。 


= —_———— SS Ss ipopts/sourceroute.c 
37 void 
38 inet srcrt print(u char *ptr, int len) 
39 ( 
40 u char c; 
41 char Str(INET ADDRSTRLEN]; 
42 struct in_addr hopl; 
43 memcpy (&hopl, ptr, sizeof(struct in addr)); 
44 tr += sizeof(struct in_addr); 
45 while ( (c = *ptr++) == IPOPT_NOP) ; /* skip any leading NOPs */ 
46 if (c == IPOPT_LSRR) 
47 printf("received LSRR: "); 
48 else if (c -- IPOPT SSRR) 
49 printf("received SSRR: "); 
50 else { 
51 printf("received option type $dMn", c); 
52 return; 
53 ) 
54 printf("*s ", Inet ntop(AF INET, &hopl, str, sizeof(str))); 
55 len = *ptr++ - sizeof(struct in_addr); /* subtract dest IP addr */ 
56 ptr++; /* skip over pointer */ 
57 while (len » 0) ( 
58 printf("$s ", Inet, ntop(AF INET, ptr, str, sizeof(str))); 
59 ptr «- sizeof(struct in addr); 
60 len -- sizeof(struct in addr); 
61 ) 
62 printf ("An"); 
63 } 
ipopts/sourceroute.c 


图 27-5 inet srcrt printPRXK: 显示 一 个 接收 源 路 径 
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保存 第 一 个 IP 地 址 并 跳 过 任何 NOP 

43-45 ”保存 缓冲 区 中 的 第 一 个 下地 址 ， 跳 过 后 跟 的 任何 NOP。 

检查 源 路 径 选 项 

46-62 ”我 们 只 显示 源 路 径 信息 ， 从 3 字 节 首部 中 ， 我 们 检查 code， 取 出 ien， 并 跳 过 ptr。 我 们 
接着 显示 跟 在 3 字 节 首部 之 后 的 所 有 下 地 址 ， 不 过 末尾 那个 目的 忆 地 址 除外 。 


27.3.1 例子 


我 们 现在 把 TCP 回 射 客 户 程序 改 为 指定 一 个 源 路 径 ， 把 TCP 回 射 服务 器 程序 改 为 显示 一 个 
接收 源 路 径 。 图 27-6 是 我 们 的 客户 程序 。 





ipopts/tcpcli01.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4t 
5 int c, sockfd, len = 0; 
6 u_char *ptr = NULL; 
7 struct addrinfo *ai; 
8 if (argc « 2) 
9 err quit("usage: tcpcli01 [ -[gG] «hostname» ... ] «hostname»"); 
10 opterr - 0; /* don't want getopt() writing to stderr */ 
11 while ( (c = getopt (argc, argv, "gG")) !- -1) ( 
12 switch (c) ( 
13 case 'g': /* loose source route */ 
14 if (ptr) 
15 err_quit ("can't use both -g and -G"); 
16 ptr - inet srcrt, init(0); 
17 break; 
18 case 'G': /* strict source route */ 
19 if (ptr) 
20 err quit("can't use both -g and -G"); 
21 ptr - inet srcrt init(1); 
22 break; 
23 case '?': 
24 err_quit (“unrecognized option: $c", c); 
25 } 
26 } 
27 if (ptr) 
28 while (optind < argc-1) 
29 len = inet_srcrt_add(argv[optind++]); 
30 else if (optind < argc-1) 
31 err_quit ("need -g or -G to specify route"); 
32 if (optind !- argc-1) 
33 err quit("missing «hostname»"); 
34 ai = Host serv(argv[optind], SERV PORT STR, AF INET, SOCK, STREAM); 
35 Sockfd - Socket(ai-»ai family, ai-»ai socktype, ai-»ai protocol); 
36 if (ptr) ( 
37 len - inet srcrt add(argv[optind]); /* dest at end */ 
38 Setsockopt(sockfd, IPPROTO IP, IP OPTIONS, ptr, len); 
39 free(ptr); 
40 } 
41 Connect (sockfd, ai->ai_addr, ai->ai_addrlen); 
42 str_cli(stdin, sockfd); /* do it all */ 
43 exit (0); 
44 ) 

ipopts/tcpcliü1.c 





图 27-6 ”指定 一 个 源 路 径 的 TCP 回 射 客户 程序 
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处 理 命令 行 参数 

12-26 调用 inet_srcrt_init 函 数 初始 化 源 路 径 ， 路 径 类 型 由 命令 行 选项 -g (表示 LSRR) 或 
-G〈 表 示 SSRR) 指定。 

27-33 ”如 果 初 始 化 成 功 ， 那 么 ptr 指 针 不 为 空 ， 我 们 于 是 调用 inet_srcrt_add 函 数 把 通过 命 
令 行 指定 的 每 个 中 间 地 址 加 到 源 路 径 中 。 否 则 如 果 剩 余 命 令 行 参数 不 止 一 个 ， 那 是 用 
户 指定 了 路 径 却 没有 指定 其 类 型 ， 我 们 就 要 显示 出 错 消息 并 退出 。 

处 理 目 的 地 址 并 创建 套 接 字 


34-35 ”最 后 一 个 命令 行 参数 是 服务 器 主机 的 主机 名 或 点 分 十 进 制 数 串 地 址 ， 由 我 们 的 host_ 


serv 函 数 处 理 。 这 里 不 能 调用 我 们 的 tcp_connect 函 数 ， 因 为 我 们 必须 在 socket 和 
connect 这 两 个 调用 之 间 指 定 源 路 径 。connect 将 发 起 三 路 握手 ， 我们 期 望 SYN 分 节 所 
在 初始 外 出 分 组 和 所 有 后 续 外 出 分 组 都 使 用 这 个 源 路 径 。 
36~42 ”如 果 用 户 指 定 了 一 个 源 路 径 , 我 们 就 必须 把 服务 器 的 下 地 址 加 到 IP 地 址 列表 的 末尾 (图 
27-1)。setsockopt 给 套 接 字 安 装 源 路 径 。 接 着 我 们 调用 connect， 随 后 调用 我 们 的 
str_cli 函 数 〈 图 $-5)。 
我 们 的 TCP 服 务 器 程序 几乎 等 同 于 图 $-12 中 的 版 本 ， 只 有 两 处 改动 。 我 们 首先 为 中选 项 分 
配 空间 : 


int len; 
u_char *opts; 


opts - Malloc(44); 


然后 在 调用 accept 之 后 但 在 调用 fork 之 前 获取 并 显示 IP 选 项 : 


len = 44; 
Getsockopt (connfd, IPPROTO IP, IP_OPTIONS, opts, &len); 
if (len > 0) ( 
printf ("received IP options, len = d\n", len); 
inet srcrt prirt(opts, len); 
) 


如 果 所 收取 的 来 自 客户 的 SYN 分 节 所 在 下 数据 报 不 包含 任何 了 选项 ,那么 由 getsockopt 返 
回 的 lien 变量 结 果 将 为 0 (en 是 一 个 “ 值 -结果 ”参数 )。 正 如 早先 所 提 ， 我 们 不 必 做 任何 事情 导 
致 TCP 使 用 所 收取 源 路 径 的 逆转 : 这 是 TCP 自 动 完成 的 (TCPv2 第 931 页 )。 我 们 调用 setsockopt 
只 是 为 了 获取 逆转 了 的 接收 源 路 径 的 一 个 副本 。 如 果 不 希 望 TCP 使 用 这 个 路 径 ， 那 么 我 们 可 以 
在 accept 返 回 之 后 通过 指定 其 第 五 个 参数 (长 度 ) 为 0 调用 setsockopt， 从 而 去 除 当前 正在 使 
用 的 IP 选 项 。TCP 已 在 三 路 握手 (图 2-5) 第 二 个 分 节 所 在 IP 数 据 报 中 使 用 接收 源 路 径 的 逆转 ， 
不 过 如 果 我 们 后 来 去 除了 这 些 选项 ， 那 么 相应 TCP 连 接 中 以 后 发 送 到 客户 的 分 组 将 纯粹 由 IP 确 
定 外 出 路 径 。 

我 们 接着 给 出 指定 源 路 径 运行 以 上 客户 /服务 器 程序 的 一 个 例子 。 适当 地 配置 源 路 径 的 处 理 
和 分 组 的 转发 之 后 ， 我 们 在 主机 freebsd4 上 按 以 下 方式 运行 客户 : 


freebsd4 $ tcpcli01 -g macosx freebsd4 macosx 


在 进行 了 处 理 源 路 径 和 转发 下 的 适当 配置 后 ， 该 命令 导致 耻 数 据 报 从 freebsd4 转 发 到 
macosx， 再 转发 回 freebsd4， 最 后 到 达 运 行 服务 器 的 主机 macosx。 两 个 中 间 系 统 freebsd4 和 
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macosx 必 须 接受 并 转发 源 路 由 的 数据 报 ， 以 使 本 例子 能 够 工作 。” 
连接 建立 之 时 服务 器 的 输出 如 下 : 


macosx $ tcpserv01 
received IP options, len = 16 
received LSRR: 172.24.37.94 172.24.37.78 172.24.37.94 


显示 的 第 一 个 下 地 址 是 逆转 路 径 的 第 一 跳 〈freebsd4， 如 图 27-4 所 示 )， 下 两 个 地 址 的 顺 
序 也 和 服务 器 把 数据 报 发 送 回 客户 所 用 的 顺序 一 致 。 如 果 使 用 cpaump 观 察 客户 /服务 器 的 交互 ， 
我 们 就 可 以 看 到 两 个 方向 上 每 个 数据 报 中 的 源 路 径 选项 。 


不 幸 的 是 ，IP_OPTIONS 套 接 字 选 项 的 操作 从 未 有 过 正式 文档 ， 因 而 在 不 是 源 自 Berkeley 
源 代码 的 系统 上 可 能 会 碰 到 一 些 异 变 。 举 例 来 说 ， 在 Solaris 2.5 系 统 上 由 getsockopt 在 缓冲 
区 中 返回 的 第 一 个 地 址 ( 图 27-4 ) 并 不 是 返 转 路 径 的 第 一 跳 地 址 ， 而 是 对 端 主机 的 地 址 。 尽 
管 如 此 ， 由 TCP 使 用 的 逆转 路 径 仍然 是 正确 的 .另外 ，Solaris 2.5 总 是 在 源 路 径 选 项 之 前 填充 4 
个 NOP， 从 而 限制 源 路 径 最 多 有 8 个 IP 地 址 ， 而 不 是 实际 最 多 可 达到 的 9 个 。 


27.3.2 ”删除 所 收取 的 源 路 径 


不 幸 的 是 ， 源 路 径 对 于 单纯 使 用 源 下 地 址 进行 认证 的 服务 器 程序 来 说 存在 一 个 安全 漏洞 。 
要 是 某 个 黑客 作为 客户 发 送 的 分 组 以 一 个 受 服务 器 信任 的 地 址 作为 源 地 址 ， 又 把 本 地 地 址 包括 
在 源 路 径 中 ， 那 么 由 服务 器 使 用 逆转 的 接收 源 路 径 返 回 的 分 组 将 无 需 经 过 列 在 源 路 径 中 的 所 有 
节点 就 到 达 黑 客 的 本 地 主机 。 从 NetV1 版 本 (1989) 开始 ，rlogind 和 rsha 这 两 个 服务 器 程序 有 
类 似 如 下 的 代码 。 


u char buf[44]; 
char lbuf[BUFSIZ]; 
int optsize; 


optsize = sizeof (buf); 
if (getsockopt (0, IPPROTO IP, IP OPTIONS, 
buf, &optsize) == 0 && optsize != 0) ( 
/* format the options as hex numbers to print in lbuf[] */ 
syslog(LOG NOTICE, 
"Connection received using IP options (ignored):$s", lbuf); 
setsockopt(0, ipproto, IP OPTIONS, NULL, 0); 
) 


如 果 到 达 一 个 含有 任何 王选 项 的 已 完成 连接 〈 即 由 getsockopt 返 回 的 optsize 值 不 为 0)， 
那 就 使 用 syslog 登 记 一 条 消息 ， 再 调用 setsockopt 去 除 这 些 选 项 。 这 么 做 防止 该 连接 上 以 后 
发 送 的 任何 TCP 分 节 使 用 接收 源 路 径 的 逆转 (实际 上 由 承载 该 TCP 分 节 的 IP 数 据 报 使 用 )。 现 在 
已 知 这 个 技巧 是 不 充分 的 ， 因 为 到 应 用 进程 接受 该 连接 时 ，TCP 三 路 握手 已 经 完成 ， 而 三 路 握 
手 的 第 二 个 分 节 (图 2-5 中 服务 器 的 SYN-ACK) 已 经 沿 循 所 收取 源 路 径 的 逆转 回 到 客户 (或 者 
至 少 回 到 了 列 在 源 路 径 中 的 某 个 中 间 节 点 ， 黑 客 可 能 恰好 就 在 该 节点 )。 既 然 黑客 已 经 看 到 两 个 
方向 上 的 TCP 序 列 号 ， 即 使 来 自 服务 器 的 后 续 分 组 不 再 使 用 源 路 径 发 送 ， 黑 客 仍 能 够 以 正确 的 

序列 号 向 服务 器 发 送 分 组 。 
解决 这 个 潜在 问题 的 唯一 办 法 是 : 当 使 用 源 下 地 址 进行 某 种 形式 的 认证 时 〈 如 zloginda 和 


O 注意 区 分 源 路 径 〈source route) AWH (source routing 或 source routed) 两 词 。 源 路 由 指 的 是 给 一 个 IP 数 据 报 
添置 一 个 SSR 选 项 的 行为 (source routing)， 或 者 是 一 个 中 数据 报 拥 有 一 个 SSR 选 项 的 状态 (source routed). 
一 一 译 者 注 
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rshd 所 为 )， 禁 止 使 用 源 路 径 到 达 的 所 有 TCP 连 接 。 在 刚才 给 出 的 代码 片段 中 ， 把 set sockopt 
调用 替换 为 关闭 刚 接受 的 连接 并 终止 新 派生 的 服务 器 。 这 么 一 来 尽管 三 路 握手 的 第 二 个 分 节 已 
经 送出 ， 但 是 连接 却 不 会 仍然 打开 着 。 


——————— di E Eid 
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我 们 在 图 A-2 中 没有 随 IPv6 首 部 展示 任何 选项 (IPv6 首 部 的 长 度 总 是 40 字 节 )， 不 过 IPv6 首 
部 可 以 后 跟 如 下 几 种 可 选 的 扩展 首部 (extention header). 

(1) 步 跳 选项 (hop_by_hop options)。 如 果 有 的 话 步 跳 选项 必须 紧 跟 40 字 节 的 IPv6 首 部 。 目 
前 没有 定义 可 供应 用 程序 使 用 的 这 类 选项 。 

(2) 目的 地 选项 (destination options)。 目 前 没有 定义 可 供应 用 程序 使 用 的 这 类 选项 。 

(3) 路 径 首 部 (routing header)。 这 是 一 个 源 路 由 选项 ， 在 概念 上 类 似 于 我 们 在 27.3 节 讲解 的 
IPv4 源 路 径 选项 。 

(4) 分 片 首 部 (fragmentation header)。 该 首部 由 对 IPv6 数 据 报 执行 分 片 的 主机 自动 产生 ， 然 
后 由 最 终 目的 主机 在 重组 片段 时 处 理 。 

(5) 认证 首部 (authentication header，AH)。 该 首部 的 用 法 在 RFC 2402 [Kent and Atkinson 
1998b] 中 说 明 。 

(6) 安全 净 荷 封装 (encapsulating security payload，ESP)。 该 首部 的 用 法 在 RFC 2406 [Kent 
and Atkinson 1998c] 中 说 明 。 

其 中 分 片 首部 完全 由 内 核 处 理 , AH 和 ESP 这 两 个 首部 可 以 由 内 核 基于 SADB 和 SPDB 自 动 处 
理 ， 而 SADB 和 SPDB 使 用 PF_xEY 套 接 字 维护 (第 19 章 )。 这 样 只 剩 下 前 3 个 扩展 首部 ,我们 将 在 
下 两 节 中 讨论 它们 。RFC 3542 [Stevens et al. 2003] 定义 了 指定 和 获取 这 些 扩展 首部 (包括 其 
中 的 选项 ) 的 API。 
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步 跳 选项 和 目的 地 选项 有 类 似 的 格式 ， 如 图 27-7 所 示 。8 位 的 下 一 个 首部 (next header) 字 
段 标识 跟 在 本 扩展 首部 之 后 的 下 一 个 首部 。8 位 的 首部 扩展 长 度 (header extention length) 是 本 
扩展 首部 的 长 度 ， 以 8 字 节 为 单位 ， 但 是 不 包括 第 一 个 8 字 节 。 举 例 来 说 ， 如 果 本 扩展 首部 占据 8 
个 字 节 ， 其 首部 扩展 长 度 就 为 0;， 如 果 本 扩展 首部 占据 16 字 节 ， 其 首部 扩展 长 度 就 为 1!， 以 此 类 
推 。 这 两 种 首部 都 被 填充 成 8 字 节 的 整数 倍 ， 所 用 填充 选项 或 为 pada1， 或 为 paaN， 我 们 稍 后 讲 
解 这 两 种 填充 选项 。 


IE 


0 78 15 16 23 24 31 


下 一 个 首部 首部 扩展 长 度 


步 跳 选 项 或 目的 地 选项 





图 27-7” 步 跳 选 项 和 目的 地 选项 的 格式 
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步 跳 选项 首部 和 目的 地 选项 首部 都 容纳 任意 数量 的 个 体 选项 ， 其 格式 如 图 27-8 所 示 。 


1 1 长 度 字段 值 
图 27-8 个体 步 跳 选项 或 目的 地 选项 的 格式 

个 体 选项 的 编排 格式 称 为 TLV 编 码 CTLV coding), 因为 每 个 选项 都 呈现 为 它 的 类 型 (type)、 
长 度 〈length) 和 值 (value) 三 个 字段 。8 位 的 类 型 字段 标识 选项 类 型 。 除 此 之 外 ， 该 字段 的 高 
序 两 位 指定 IPv6 节 点 在 不 理解 本 选项 的 情况 下 如 何 处 理 它 。 

00 ” 跳 过 本 选项 ， 继 续 处 理 本 首部 。 

01 ”丢弃 本 分 组 。 

00 “丢弃 本 分 组 ， 并 且 不 论 本 分 组 的 目的 地 址 是 否 为 一 个 多 播 地 址 ， 均 发 送 一 个 ICMP 人 参数 

问题 类 型 2 错误 (图 A-16) BRIEF. 
00 “丢弃 本 分 组 ， 并 且 只 在 本 分 组 的 目的 地 址 不 是 一 个 多 播 地 址 的 前 提 下 ， 发 送 一 个 ICMP 
参数 问题 类 型 2 错误 (图 A-16) 给 发 送 者 。 

下 一 个 高 序 位 指定 本 选项 的 数据 在 途中 有 无 变化 。 

O 选项 数据 在 途中 无 变化 。 

1 选项 数据 在 途中 可 能 变化 。 

低 序 5 位 指定 选项 本 身 。 需 注意 的 是 ， 低 序 5 位 不 能 孤立 标识 一 个 选项 ， 而 是 需要 与 高 序 3 
位 共同 标识 。 尽 管 如 此 ， 类 型 字段 的 赋值 仍然 尽 可 能 保持 低 序 5 位 的 唯一 性 。 

8 位 的 长 度 字段 指定 选项 数据 的 字 节 长 度 , 类 型 字段 和 本 长 度 字 段 不 在 这 个 长 度 的 计量 范围 
之 内 。 

那 两 个 填充 选项 定义 在 RFC 2460 [Deering and Hinden 1998] 中 ， 在 步 跳 选项 首部 和 目的 
地 选项 首部 中 都 可 以 使 用 。 特 大 净 荷 长 度 (jumbo payload length) 是 一 个 步 跳 选 项 ， 定 义 在 RFC 
2675 [Borman, Deering, and Hinden 1999] 中 ， 它 完全 由 内 核 在 需要 时 产生 ， 在 收 到 时 处 理 。 路 
由 器 告警 (routeralert) 也 是 一 个 步 跳 选项 ， 在 RFC 2711 [Partridge and Jackson] 中 讲解 ， 类 似 
于 IPv4 的 路 由 器 告警 。 图 27-9 展 示 了 这 些 选 项 。 定 义 过 的 选项 还 有 一 些 〈 例 如 Mobile-IPv6 所 用 
的 一 些 选项 )， 我 们 不 讨论 它们 。 


paan: 0 | 
padN: 1 0 | 0 字 节 … 


长 度 字段 值 个 字 节 
特大 净 荷 长 度 ; 194 | 4 snam | 
4 字 节 
路 由 器 告警 ，| 5 {ti 
ry 
图 27-9 IPv62E SEXE X 
pad1 选 项 是 唯一 没有 长 度 和 值 这 两 个 字段 的 选项 。 它 提供 1 字 节 的 填充 。padN 选 项 用 于 需 
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要 2 个 或 多 个 字 节 填 充 的 场合 。 对 于 2 字 节 填充 ， 本 选项 的 长 度 字段 为 0， 整 个 选项 就 由 类 型 和 长 
度 这 两 个 字段 构成 。 对 于 3 字 节 填充 ， 本 选项 的 长 度 字 段 为 1， 后 跟 1 字 节 的 0 值 。 特 大 净 荷 长 度 
选项 提供 一 个 32 位 的 数据 报 长 度 , 用 于 图 A-2 中 展示 的 16 位 净 荷 长 度 字 段 不 够 大 的 场合 。 路 由 器 
告警 选项 指示 本 分 组 应 由 沿途 路 由 器 截取 ， 其 值 指出 哪些 路 由 器 需 关 注 本 分 组 。 

我 们 展示 这 些 选 项 的 原因 在 于 每 个 步 跳 选项 和 目的 地 选项 都 有 一 个 对 齐 要 求 Calignment 
requirement)， 写 作 xn+y， 表 示 这 个 选项 必须 出 现在 距离 所 在 扩展 首部 开始 处 x 字 节 整数 倍加 y 字 节 
的 位 置 。 举 例 来 说 ， 特 大 净 荷 长 度 选项 的 对 齐 要 求 是 4n+2， 该 要 求 迫 使 4 字 节 的 选项 值 ( 特 大 净 荷 
KE) 处 于 某 个 4 字 节 边界 。 该 选项 的 y 值 取 2 是 因为 出 现在 每 个 步 跳 选项 和 目的 地 选项 值 字段 之 前 
的 2 个 字 节 (图 27-8)。 路 由 器 告警 选项 写作 2n+0 的 对 齐 要 求 迫使 2 字 节 选项 值 处 于 某 个 2 字 节 边界 。 [721 

步 跳 选项 和 目的 地 选项 通常 作为 辅助 数据 通过 调用 senGdmsg 指 定 ， 并 由 recvmsg 调 用 作为 
辅助 数据 返回 。 应 用 进程 无 需 为 发 送 这 两 类 选项 做 任何 特别 之 事 ， 而 只 需 在 某 个 sendmsg 调 用 
中 指定 它们 。 为 了 接收 这 两 类 选项 ， 应 用 进程 必须 开启 对 应 的 套 接 字 选 项 : 步 跳 选 项 对 应 
IPV6_RECVHOPOPTS， 目 的 地 选项 对 应 IPV6_RECVDSTOPTS。 举 例 来 说 ， 允 许 这 两 类 选项 都 返回 
的 代码 如 下 。 

const int on = 1; 


setsockopt(sockfd, IPPROTO IPV6, IPV6 RECVHOPOPTS, &on, sizeof(on)); 
setsockopt (sockfd, IPPROTO IPV6, IPV6 RECVDSTOPTS, &on, sizeof(on)); 


图 27-10 展 示 了 用 于 发 送 和 接收 步 跳 选项 和 目的 地 选项 的 辅助 数据 对 象 的 格式 。 







cmsghdr{} emsghdr{} 
IPPROTO_IPV6 cmsg level  |IPPROTO IPV6 






图 27-10 ” 步 跳 选项 和 目的 地 选项 的 辅助 数据 对 象 


这 两 类 选项 首部 的 实际 内 容 作 为 辅助 数据 对 象 的 cmsg_qata 部 分 在 进程 和 内 核 之 间 传递 。 
为 了 避免 直接 定义 这 些 内 容 ， 相 关 API 定 义 了 7 个 用 于 创建 和 处 理 这 些 辅 助 数据 对 象 数 据 部 分 的 
函数 。 以 下 4 个 函数 用 于 构造 待 发 送 的 选项 。 


#include «netinet/in.h» 


IPVé HOPOPTS cmsg type IPV6 DSTOPTS 





目的 地 选项 





int inet6 opt init(void *extbuf, socklen t extlen) ; 
返回 : 容纳 空 扩展 首部 所 需 的 字 节 数 ， 若 出 错 则 为 -1 


int inet6 opt append(void *extbuf, socklen t extlen, 
int offset, uint8 t type, socklen t len, 
uint8 t align, void **databufp); 


返回 :添加 选项 后 更 新 的 扩展 首部 总 长 度 ， 若 出 错 则 为 -1 


int inet6 opt, finish(void *extbuf, socklen t extlen, int offset); 


返回 :完成 设置 后 更 新 的 扩展 首部 总 长 度 ， 若 出 错 则 为 -1 
int inet6 opt set val(void *databuf, int offset, 
const void *val, socklen t vallen); 


返回 ，databuf 中 新 的 偏 移 
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inet6_opt_init 返 回 容纳 一 个 空 扩 展 首部 所 需 的 字 节 数 。 如 果 extbuf 指 针 参 数 不 为 空 ， 它 
就 初始 化 这 个 扩展 首部 。 如 果 extbuf 参 数 不 为 空 ， 但 是 extlen 参 数 却 不 是 8 的 倍数 ， 它 就 以 -1 失败 
返回 。( 所 有 IPv6 步 跳 和 目的 地 选项 扩展 首部 必须 是 8 的 倍数 。) 

inet6_opt_appen6 返 回 添 加 指定 的 个 体 选项 后 更 新 的 扩展 首部 总 长 度 。 如 果 extbuf 参 数 不 
为 室 ， 它 就 初始 化 该 个 体 选 项 并 按照 对 齐 要 求 插入 必要 的 填充 。 如 果 所 提供 的 缓冲 区 放 不 下 新 
选项 ， 它 就 以 -1 失败 返回 。offset 参 数 是 当前 游 动 的 总 长 度 ， 必 须 是 先前 某 个 inet6_opt_init 
或 inet6_opt_append 调 用 的 返回 值 。 参数 type 和 len 分 别 指定 了 选项 的 类 型 和 长 度 ， 并 直接 被 复 
制 到 选项 首部 中 。align 参 数 指定 对 齐 要 求 ， 即 xmty 中 的 x 值 ， 而 y 值 可 由 align 和 ien 值 得 出 ， 因 此 
不 必 显 式 地 指定 。databufp 参 数 用 于 返回 指向 所 添加 选项 值 的 填写 位 置 的 一 个 指针 , 调用 者 随后 
可 以 使 用 inet6_opt_set_val 函 数 或 其 他 方法 往 这 个 位 置 复制 选项 值 。 

inet6_opt_finish 用 于 结束 一 个 扩展 首部 的 设置 ， 添 加 任何 必要 的 填充 ， 使 得 总 长 度 为 8 
的 倍数 。 如果 extbuf 参 数 不 为 空 , 它 就 把 填充 真正 插入 缓冲 区 中 , 否则 它 只 是 计算 并 更 新 总 长 度 。 
与 inet6_opt_append 一 样 ，offset 参 数 是 当前 游 动 的 总 长 度 ， 必 须 是 先前 某 个 inet6_opt_init 
或 inet6_opt_append 调 用 的 返回 值 。 本 函数 返回 已 完成 设置 的 扩展 首部 总 长 度 ， 不 过 如 果 所 
提供 的 缓冲 区 放 不 下 所 需 的 填充 ， 那 就 返回 -1。 

inet6_opt_set_val 用 于 把 给 定 的 选项 值 复制 到 由 inet6_opt_append 返 回 的 数据 缓冲 区 
中 。databuf/ 参 数 是 由 inet6_opt_append 返 回 的 指针 。offset 参 数 在 该 数据 缓冲 区 内 的 游 动 长 度 ， 
调用 者 必须 为 每 个 选项 将 其 初始 化 为 90， 以 后 随 着 这 个 选项 的 构造 完成 ， 该 参数 就 是 前 一 个 
inet6_opt_set_val 调 用 的 返回 值 。 参 数 val 和 valen 用 于 指定 复制 到 选项 值 缓冲 区 中 的 值 。 

这 些 函数 的 期 望 用 法 是 遍历 两 趟 待 添加 的 个 体 选 项 列表 : 第 一 趟 用 于 计算 预期 的 长 度 ， 第 
二 趟 用 于 把 各 个 选项 实际 构造 到 大 小 合适 的 缓冲 区 中 。 无 论 哪 一 趟 都 是 先 调用 inet6_opt_ 
init， 再 为 每 个 待 添加 的 选项 调用 一 次 inet6_opt_append， 最 后 以 调用 inet6_opt_finish 
结束 。 第 一 趟 中 传递 给 extbuf 和 extlen 这 两 个 参数 的 分 别 是 NULL 和 0。 第 一 趟 结束 后 使 用 由 
inet6_opt_finish 返 回 的 大 小 动态 分 配 用 于 存放 选项 扩展 首部 的 缓冲 区 ， 第 二 趟 中 就 使 用 指 
向 该 缓冲 区 的 一 个 指针 及 该 缓冲 区 的 长 度 作为 extpuf 和 extien 这 两 个 参数 的 值 。 在 第 二 趟 中 ， 每 
个 选项 的 值 或 者 手工 复制 ， 或 者 调用 inet6_opt_set_val 复 制 。 我 们 也 可 以 预先 分 配 一 个 对 于 
待 添加 的 选项 来 说 应 该 足够 大 的 缓冲 区 ， 从 而 省 略 掉 第 一 趟 ， 不 过 缓冲 区 的 大 小 有 时 候 不 易 预 
估 ， 有 可 能 导致 第 二 趟 以 失败 告终 。 

其 余 3 个 函数 用 于 处 理 所 接 收 的 选项 。 


#include <netinet/in.h> 


int inet6_opt_next (const void *extbuf, socklen_t extlen, int offset, 
uint8_t *fypep, socklen_t *lenp, void **databufp) ; 


返回 : 若 存在 下 一 个 选项 则 为 其 偏 移 量 ， 和 否则 或 若 出 错 则 为 -1 


int inet6 opt find(const void *extbuf, socklen t extlen, int offset, 
uint8 t type, socklen t *lenp, void **databufp) ; 


返回 : 若 存 在 下 一 个 选项 则 为 其 偏 移 量 ， 否 则 或 若 出 错 则 为 -1 


int inet6_opt_get_val(const void *databuf, int offset, 
void *val, sockien t vallen); 


inet6_opt_next 处 理 某 个 缓冲 区 中 的 下 一 个 选项 。 参数 extbuf 和 extlen 用 于 指定 该 缓冲 区 。 
与 inet6_opt_append 类 似 ，offset 参 数 是 指向 该 缓冲 区 的 游 动 偏 移 量 。 首 次 调用 本 函数 时 应 该 
指定 其 值 为 0%， 以 后 就 使 用 前 一 个 调用 的 返回 值 。typep、lenp 和 databufp 这 三 个 参数 分 别 用 于 返 
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回 当前 游 动 选项 的 类 型 、 长 度 和 值 。 如 果 所 指定 缓冲 区 不 符合 选项 扩展 首部 格式 或 者 已 经 到 达 
该 缓冲 区 的 末尾 ， 该 函数 就 返回 -1。 
inet6_opt_find? 类 似 上 一 个 函数 ， 不 过 它 让 调用 者 指定 待 搜索 的 选项 类 型 (type 参 数 )， 
以 取代 总 是 返回 下 一 个 选项 。 
inet6_opt_get_val 用 于 从 由 databuf 参 数 指定 的 某 个 选项 值 中 抽取 数据 , 而 这 个 参数 是 由 
inet6_opt_next 或 inet6_opt_find 返 回 的 指针 E 5inet6. opt set val—ff, offset o 
由 调用 者 为 每 个 选项 初始 化 为 0， 以 后 使 用 前 一 个 inet6_opt_get_val 调 用 的 返回 值 。 


———— ——————Á—— NE CE EEE ORD ET E 


27.6 IPv6 路 由 首部 


IPv6 路 由 首部 用 于 IPv6 的 源 路 由 。 该 首部 的 前 两 个 字 节 和 图 27-7 所 示 的 一 样 ， 先 后 分 别 是 
下 一 个 首部 (next header) 字段 和 首部 扩展 长 度 (header extension length) 字段 。 下 两 个 字 节 分 
别 指定 路 由 类 型 (routing type). 和 剩余 网 段 (segments left) 数目 〈 也 就 是 所 列 节点 中 还 有 多 少 
个 需要 拜访 )。 已 经 定义 的 路 由 首部 只 有 一 个 类 型 , 它 的 路 由 类 型 字段 为 0, 格式 如 图 27-11 所 示 。 











0 7 8 1516 23 24 31 
下 一 个 首部 首部 扩展 长 度 路 由 类 型 =0 剩余 网 段 
保留 
地 址 1 
地 址 2 
地 址 N 





图 27-11 IPv6 路 由 首部 


(D offset 参 数 指定 开始 搜索 位 置 的 偏 移 量 。 如 果 找 到 指定 类 型 的 选项 ， 那 就 在 参数 lenp 和 databufp 中 返回 该 选 
项 的 长 度 和 值 ， 并 以 下 一 个 选项 (可 能 是 选项 扩展 首部 的 末尾 的 偏 移 量 作为 函数 的 返回 值 。 
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路 由 首部 中 可 以 出 现 的 地 址 数目 仅仅 受 限于 分 组 允许 长 度 等 外 在 因素 ， 而 剩余 分 节 这 个 字 
段 的 取 值 必须 小 于 等 于 所 列 的 地 址 数 日 。RFC 2460 [Deering and Hinden 1998] 说 明了 一 个 具有 
路 由 首部 的 分 组 在 游历 到 最 终 目 的 地 的 过 程 中 各 个 途经 节点 如 何 处 理 该 路 由 首部 的 具体 细节 ， 

726| 并 给 出 了 详尽 的 例子 。 

路 由 首部 通常 作为 辅助 数据 经 调用 sendmsg 指 定 ， 并 由 recvmsg 调 用 作为 辅助 数据 返回 。 
应 用 进程 无 需 为 发 送 这 个 首部 做 任何 特别 之 事 ， 而 只 需 在 某 个 senamsg 调 用 中 指定 它 。 为 了 接 
收 路 由 首部 ， 应 用 进程 必须 开启 TIPV6_RECVRTHDR 套 接 字 选 项 ， 如 以 下 代码 所 示 。 

const int on = 1; 

setsockopt(sockfd, IPPROTO IPV6, IPV6 RECVRTHDR, &on, sizeof(on)); 

图 27-12 给 出 了 用 于 发 送 和 接收 路 由 首部 的 辅助 数据 对 象 的 格式 。 相 关 API 为 创建 和 处 理 路 
由 首部 定义 了 6 个 函数 。 以 下 3 个 函数 用 于 构造 待 发 送 的 路 由 首部 。 


#include <netinet/in.h> 


Sockler t inet6 rth space(int type, int segments); 
返回 : 若 成 功 则 为 正 的 字 节 数 ， 若 出 错 则 为 0 


void *inet6 rth init(void *rthbuf, socklen t rthlen, 


int type, int segments); 
返回 : 考 成 功 则 为 非 空 指 针 ， 若 出 错 则 为 NOLL 
int inet6 rth add(void *rthbuf, const struct in6 addr *addr); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 -1 


inet6_rth_space 返 回 容纳 一 个 类 型 由 pe 参数 〈 其 值 通常 为 TPV6_RTHDR_TYPE_0) 指定 
且 网 段 总 数 为 segments 参 数值 的 路 由 首部 所 需 的 字 节 数 。 


cmsghdr{} 
cmsg_level IPPROTO_IPV6 
cmsg_type IPV6_RTHDR 





路 由 首部 





图 27-12 IPv6 路 由 首部 的 辅助 数据 对 象 


inet6_rth_init 初 始 化 由 rthbuf 指 向 的 缓冲 区 ， 以 容纳 一 个 类 型 为 type 值 且 网 段 总 数 为 
segments 值 的 路 由 首部 。 返 回 值 是 指向 该 缓冲 区 的 一 个 指针 ， 不 过 若 发 生 错 误 〈 例 如 所 提供 的 
缓冲 区 不 够 大 ) 则 为 空 指针 。 不 是 空 指针 的 返回 值 用 作 下 一 个 函数 的 一 个 参数 。 

inet6_rth_add 把 由 addr 指 向 的 IPv6 地 址 加 到 构建 中 的 路 由 首部 的 末尾 。 调 用 成 功 时 该 路 

-由 首部 的 剩余 网 段 成 员 会 被 更 新 为 新 的 地 址 数目 。 
727 以 下 3 个 函数 用 于 处 理 所 接 收 的 路 由 首部 。 


#include «netinet/in.h» 


int inet6 rth reverse(const void *in, void *out); 





返回 :老成 功 则 为 0， 若 出 错 则 为 -1 


int inet6_rth_segments(const void *rthbuf); 
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返回 ， 若 成 功 则 为 路 由 首部 中 的 网 段 数 目 ， 若 出 错 则 为 -1 
struct in6 addr *inet6 rth getaddr(const void *rthbuf, int index); 


返回 : 若 成 功 则 为 非 空 指针 ， 若 出 错 则 为 NULL 





inet6_rth_reverse 根 据 由 za 参数 所 指 缓冲 区 中 存放 的 某 个 接收 路 由 首部 创建 一 个 新 的 路 
由 首部 ， 存 放 在 由 oxt 参 数 所 指 的 缓冲 区 中 ， 以 便 接收 进程 沿 逆转 的 路 径 发 送 回 数据 报 。 路 径 的 
逆转 可 以 当场 发 生 ， 也 就 是 说 ，in 和 out 这 两 个 指针 可 以 指向 同一 个 缓冲 区 。 

inet6_rth_segments 返 回 由 rthbuf 所 指 路 由 首部 中 的 网 段 数 目 。 调 用 成 功 时 返回 值 应 该 大 
于 0。 

inet6_rth_getaddr 用 于 返回 由 rthbuf 所 指 路 由 首部 中 索引 号 为 index 的 那个 IPv6 地 址 ， 返 
回 值 是 指向 该 地 址 所 在 位 置 的 一 个 指针 。index 的 值 必须 在 以 0 和 inet6_rth_segments 的 返回 值 
减 去 1 为 界限 的 闭 区 间 内 。 

为 了 展示 IPv6 路 由 首部 的 用 法 ， 我 们 编写 一 对 UDP 客户 程序 和 服务 器 程序 。 该 客户 程序 如 
图 27-13 所 示 ， 它 就 像 图 27-6 所 示 的 IPv4 TCP 客 户 程序 那样 从 命令 行 接受 一 个 源 路 径 。 该 服务 器 
显示 所 收取 了 Pv6 数 据 报 的 接收 源 路 径 ， 再 把 该 数据 报 沿 接收 源 路 径 的 逆转 发 送 回 客户 。 





ipopts/udpcli01.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4{ 
5 int c, sockfd, len = 0; 
6 u_char *ptr = NULL; 
7 void *rth; 
8 struct addrinfo *ai; 
9 if (arge < 2) í 
10 err quit("usage: udpcli01 [ «hostname» ... ] «hostname»"); 
11 if (argc > 2) { 
12 int i; 
13 len = Inet6 rth space(IPV6 RTHDR TYPE 0, argc-2); 
14 ptr = Malloc(len); 
15 Inet6 rth init(ptr, len, IPV6 RTHDR TYPE 0, argc-2); 
16 for (i = 1; i < argc-1; i++) ( 
17 ai = Host_serv(argv[i], NULL, AF_INET6, 0); 
18 Inet 6_rth_add(ptr, 
19 &((struct sockaddr in6 *)ai->ai_addr) ->sin6_addr) ; 
20 } 
21 } 
22 ai = Host serv(argv[argc-1], SERV. PORT STR, AF INET6, SOCK DGRAM); 
23 Sockfd - Socket(ai-»ai family, ai-»ai socktype, ai-»ai, protocol); 
24 if (ptr) ( 
25 Setsockopt(sockfd, IPPROTO IPV6, IPV6 RTHDR, ptr, len); 
26 free(ptr); 
27 ) 
28 dg cli(stdin, sockfd, ai-»ai, adár, ai-»ai addrlen);  /* do it all */ 
29 exit(0); 
30 ) 
ipopts/udpcli0l.c 


图 27-13 ”指定 一 个 源 路 径 的 IPv6 UDP 客户 程序 
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创建 源 路 径 
11-21 ”如 果 所 提供 的 主机 名 参数 不 止 一 个 ， 那 么 源 路 径 由 除 最 后 一 个 之 外 的 所 有 参数 构成 。 
首先 调用 inet6_rth_space 确 定 创建 路 由 首部 需要 多 大 空间 ， 调 用 malloc 分 配 这 个 空 
间 后 再 调 用 inet6_rch_inic 初 始 化 所 分 配 的 缓冲 区 . 然后 对 源 路 径 中 的 每 个 地 址 先 调 
用 host_serv 把 它 转换 成 数值 格式 ， 再 调用 inet6_rth_adq 把 它 添 加 到 构建 中 的 源 路 
径 。 这 个 过 程 类 似 对 照 的 IPv4 TCP 客 户 程序 ， 差 别 是 IPv4 的 API 要 求 我 们 自行 编写 帮手 
函数 ， 而 IPv6 的 API 由 系统 作为 库 函数 提供 。 
查找 目的 地 并 创建 套 接 字 
22-23 ”使 用 nost_serv 查 找 且 的 主机 名 的 数值 格式 地 址 ， 并 创建 一 个 套 接 字 。 
设置 TPV6_RTHDR 并 调用 工作 者 函数 
24-20 ”我 们 将 在 27.7 节 看 到 , 通过 调用 setsockopt 设 置 IPV6_RTHDR 套 接 字 选项 可 以 把 一 个 路 
由 首部 应 用 于 从 某 个 套 接 字 发 送 的 所 有 分 组 ， 以 取代 为 每 个 分 组 发 送 同样 辅助 数据 的 
做 法 。 我 们 只 在 早先 分 配 过 路 由 首部 的 前 提 下 〈 即 ptr 非 空 ) 设置 该 选项 。 最 后 调用 图 
8-8 中 给 出 的 工作 者 函数 sag_cli。 
服务 器 程序 类 似 图 8-3 给 出 的 简单 程序 : 打开 一 个 UDP 套 接 字 并 调用 ag_echo。 其 设置 相当 
简单 ， 我 们 没有 给 出 。 不 过 我 们 在 图 27-14 中 给 出 了 所 调用 的 dg_echo 函 数 版 本 : 如 果 收 到 一 个 
携带 源 路 径 的 分 组 ， 那 就 显示 这 个 源 路 径 ， 并 逆转 它 以 用 于 返 送 该 分 组 。 
1 #include "unp.h" 


2 void 
3 dg echo(int sockfd, SA *pcliaddr, socklen t clilen) 
{ 


ipopts/dgechoprintroute.c 





5 int n; 

6 char mesg (MAXLINE]; 

7 int on; 

8 char control [MAXLINE] ; 

9 struct msghdr msg; 

10 struct cmsghdr  *cmsg; 

11 struct iovec iov[1]; 

12 on s 1; 

13 Setsockopt(sockfd, IPPROTO IPV6, IPV6_RECVRTHDR, &on, sizeof(on)); 
14 bzero(&msg, sizeof(msg)); 

15 iov[0].iov base - mesg; 

16 msg.msg name - pcliaddr; 

17 msg.msg iov - iov; 

18 msg.msg iovlen - 1; 

19 msg.msg control - control; 

20 for (; : ) ( 

21 msg.msg_namelen = clilen; 

22 msg.msg_controllen = sizeof (control); 

23 iov[0].iov len - MAXLINE; 

24 n = Recvmsg(sockfd, &msg, 0); 

25 for (cmsg = CMSG, FIRSTHDR(&msg); cmsg !- NULL; 
26 cmsg - CMSG NXTHDR(&msg, cmsg)) ( 

27 if (cmsg-»cmsg level -- IPPROTO IPV6 && 
28 cmsg-»cmsg type == IPV6 RTHDR) { 

29 inet6 srcrt print(CMSG DATA(cmsg)); 
30 Inet6 rth, reverse(CMSG DATA(cmsg), CMSG DATA(cmsg)); 
31 ) 

32 ) 

33 iov(0].iov len - n; 

34 Sendmsg(sockfd, &msg, 0); 

35 ) 


- ipopts/dgechoprintroute.c 
图 27-14 ”显示 并 道 转 IPv6 源 路 径 的 dag_echo 函 数 
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开启 TPV6_RECVRTHDR 并 设置 msghdr 结 构 

12-19 ”我 们 必须 开启 TPV6_RECVRTHDR 套 接 字 选 项 才能 接收 外 来 源 路 径 。 我 们 还 设置 用 于 接收 
外 来 源 路 径 的 msghar 结 构 的 恒定 字段 。 

设置 msghar 结 构 可 变 字 段 并 调用 recvmsg 

21-24 对 于 msghdr 结 构 中 会 被 recvmsg 调 用 改 掉 的 若干 个 长 度 字 段 ， 我 们 在 每 次 调用 该 函数 
前 重新 设置 它们 。 

寻找 并 处 理 路 由 首部 

25-32 使 用 宏 cMsG_FIRSTHDR 和 CMSG_NXTHDR 遍 历 辅助 数据 以 寻找 路 由 首部 。 虽 然 我 们 只 需 
要 一 份 辅助 数据 ， 但 如 此 遍历 仍 不 失 为 一 种 好 做 法 。 如 果 找 到 一 个 ， 那 就 调用 我 们 的 
inet6_srcrt_print 函 数 ( 图 27-15) 显 示 其 中 的 源 路 径 , 然后 使 用 inet6_rth_reverse 
逆转 该 路 径 ， 以 便 沿 同样 的 路 径 返 送 所 接收 的 分 组 。 本 例子 中 inet6_rth_reverse 当 
场 逆 转 路 径 ， 因 此 我 们 可 以 使 用 同一 个 msghar 结 构 返 送 所 接收 的 分 组 。 

回 射 分 组 

33-34 ”设置 好 所 回 射 数据 的 长 度 ， 然 后 调用 sendmsg 返 送 所 接收 的 分 组 。 








我 们 的 inet6_srcrt_print 函 数 因为 使 用 IPv6 路 由 首部 帮手 函数 而 显得 相当 简单 。 
= : —— —— — —— ipopts/sourceroute6.c 
1 #include "unp.h" 
2 void 
3 inet6 srcrt print(void *ptr) 
4【 
5 int i, segments; 
6 char SCr[INET6 ADDRSTRLEN]; 
7 segments = Inet6 rth segments (ptr); 
8 printf ("received source route: "); 
9 for (i = 0; i < segments; i++) 
10 printf("%s ", Inet ntop(AF INET6, Inet6 rth getaddr(ptr, i), 
11 str, sizeof(str))); 
12 printf ("Mn"); 
13 ] 
$$ e —M————— ipopts/sourceroute6.c 





图 27-15 ”显示 一 个 IPv6 接 收 源 路 径 的 inet6_srcrt_print 函 数 


确定 源 路 径 中 的 网 段 数 
7 调用 inet6_rth_segments 确 定 源 路 径 中 存在 的 网 段 数 。 
遍历 每 个 网 段 
9-11 遍历 所 有 网 段 ,对 于 每 个 网 段 调 用 inet6_rth_getaddr 获 取 其 地 址 , 再 使 用 inet_ntop 
把 该 地 址 由 数值 格式 转换 成 表达 格式 。 
处 理 IPv6 源 路 径 的 客户 和 服务 器 程序 无 需 了 解 源 路 径 在 分 组 中 是 如 何 格式 化 的 .API 提 供 的 
库 函 数 隐藏 了 分 组 格式 的 细节 ， 但 为 我 们 提供 了 从 IPv4 中 的 高 速 暂 存 器 构造 选项 时 所 提供 的 全 
部 灵活 性 。 


27.7_IPv6 粘 附 选项 s 


我 们 已 经 讲解 了 作为 辅助 数据 使 用 sendmsg 和 recvmsg 发 送 和 接收 的 7 种 辅助 数据 对 象 。 
(1) IPv6 分 组 信息 : in6_pktinfo 结 构 或 者 包含 目的 地 址 和 外 出 接口 索引 ， 或 者 包含 源 地 址 
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和 到 达 接 口 索引 《图 22-21)。 

(2) 外 出 跳 限 或 接收 跳 限 〈 图 22-21)。 

(3) 下 一 跳 地 址 〈 图 22-21)。 只 能 发 送 不 能 接收 。 

(4) 外 出 流通 类 别 或 接收 流通 类 别 〈 图 22-21 )。 

(5) 步 跳 选项 (图 27-10)。 

(6) 目的 地 选项 (图 27-10)。 

(7) 路 由 首部 (27-12). 

我 们 在 图 14-11 中 与 其 他 辅助 数据 对 象 一 道 汇总 了 这 些 对 象 的 cmsg_level 值 和 cmsg_ 
type 值 。 

如 果 这 些 辅 助 数 据 对 象 各 自 有 单个 值 将 应 用 于 从 某 个 套 接 字 发 送 的 所 有 分 组 ， 那 么 我 们 不 
必 每 次 调用 sengdmsg 时 都 发 送 它 们 ， 而 是 代 之 以 设置 相应 的 套 接 字 选项 。 这 些 套 接 字 选项 所 用 
常 值 与 辅助 数据 对 象 一 致 ， 也 就 是 说 调用 setsockopt 的 级 别 参数 总 是 IPPROTO_IPV6， 选 项 名 
参数 可 以 是 IPV6_PKTINFO、IPV6_HOPLIMIT、IPV6_NEXTHOP、IPV6_TCLASS、IPV6_HOPOPTS、 
IPV6_DSTOPTS 或 ITPV6_RTHDR。 然 而 对 于 UDP 套 接 字 和 原始 IPvV6 套 接 字 ， 我 们 可 以 通过 在 
sendmsg 调 用 中 指定 相应 辅助 数据 对 象 这 一 手段 ， 针 对 每 个 分 组 覆 写 这 些 粘 附 性 选项 。 如 果 
sendmsg 调 用 中 指定 了 某 个 辅助 数据 对 象 ， 相 应 粘 附 性 选项 就 不 随 所 发 送 的 数据 报 发 送 。 

粘 附 性 选项 的 概念 同样 适用 于 TCP， 因 为 在 TCP 套 接 字 上 绝 不 能 使 用 sendmsg 或 recvmsg 发 
送 或 接收 辅助 数据 。TCP 应 用 进程 可 以 通过 设置 相应 的 套 接 字 选项 以 指定 上 述 7 种 辅助 数据 对 象 
之 任意 组 合 。 这 些 对 象 随后 影响 在 相应 套 接 字 上 发 送 的 所 有 分 组 。 然 而 如 果 某 个 分 组 需要 重 传 ， 
且 发 送 原初 分 组 和 重 传 分 组 时 粘 附 性 选项 的 设置 发 生变 更 ， 那 么 设置 在 重 传 分 组 上 的 粘 附 性 选 
项 既 可 能 是 原初 的 ， 也 可 能 是 新 的 。 

希望 在 某 个 套 接 字 上 调用 recvmsg 接 收 这 些 辅助 数据 对 象 的 应 用 进程 必须 预先 在 该 套 接 字 
上 开启 相应 的 套 接 字 选 项 IPV6_RECVPKTINFO、IPV6_RECVHOPLIMIT、IPV6_RECVTCLASS、 
IPV6_RECVHOPOPTS、IPV6_RECVDSTOPTS 或 TPV6_RECVRTHDR。TCP 应 用 进程 也 可 以 如 此 获取 
这 些 辅助 数据 对 象 ， 不 过 既然 在 TCP 套 接 字 上 不 能 使 用 recvmsg 与 用 户 数据 一 道 接收 辅助 数据 ， 
由 recvmsg 返 回 的 这 些 粘 附 性 选项 实际 上 来 自 最 近 收 取 的 分 节 所 在 的 IPv6 分 组 。 这 些 选项 应 该 
是 面向 整个 TCP 连 接 的 ， 也 就 是 说 所 有 外 来 段 所 在 的 IPv6 分 组 具有 相同 的 选项 。? 


RFC 2292 [Stevens and Thomas 1998] 定义 了 本 章 讲解 的 IPv6 高 级 API 的 一 个 早期 版 本 。 在 
这 个 早期 版 本 中 , 用 于 处 理 步 跳 和 目的 地 选项 的 函数 是 inet6_option_space、 inet6_option_ 
init.inet6 option append.inet6 option alloc.inet6 option next 和 inet6_option_ 
find。 若 所 有 选项 都 包含 在 辅助 数据 中 ， 这 些 函 数 会 直接 处 理 cmsghar 结 构 中 的 对 象 。 用 于 处 
理 路 由 首部 的 函数 是 inet6_rthdr_space、inet6_rthdr_init、inet6_rthdr add. inet6 
rthdr lasthop. inet6 rthdr reverse. inet6 rthdr segments. inet6 rthdr getaddr 





Q 这 段 文字 由 译 者 整理 。 第 2 版 使 用 的 是 现 已 被 淘汰 的 API (IPV6_PKTOPTIONS 套 接 字 选项 )， 第 3 版 新 作者 又 


没有 理解 Stevens 区 分 了 获取 (retrieving) 和 接收 (receiving) 两 词 的 含义 ， 所 语 与 Stevens 先 生 大 相 径 庭 。 第 3 版 
原文 仅 一 句 “There is no way to retrieve options received via TCP since there is no relationship between received packets 
and user receive operations", — —if3tik i 
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和 inet6_rthdr_getflags。 它 们 都 直接 操作 cmsghdr 结 构 中 的 辅助 数据 对 象 。 
在 这 个 API 中 ， 粘 附 性 选项 使 用 IPV6_PKTOPTIONS 单 个 套 接 字 选 项 设置 或 获取 。 原 本 传递 
给 sendmsg 或 由 recvmsg 返 回 的 辅助 数据 对 象 也 可 以 作为 ITPV6_PKTOPTIONS 套 接 字 选 项 的 数据 
部 分 。 另 外 ， 套 接 字 选项 ITPV6_DsTOPTS、TPV6_HoPOPTS 和 TIPV6_RTHDR 是 标志 值 ， 用 于 请 求 经 
由 辅助 数据 接收 相应 的 IPv6 扩 展 首 部 。 
以 上 操作 的 详细 信息 参见 RFC 2292 [Stevens and Thomas 1998] 第 4 节 到 第 8 节 。 
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在 10 个 已 定义 的 IPv4 选 项 中 最 常用 的 是 源 路 径 选项 ， 不 过 出 于 安全 考虑 ， 它 的 使 用 正在 日 
益 鞭 缩 。IPv4 首 部 中 选项 的 访问 通过 IP_oPTIONS 套 接 字 选项 完成 。 

IPv6 定 义 了 6 个 扩展 首部 ， 不 过 对 它们 的 支持 至 今 依然 鲜 见 。IPv6 扩 展 首 部 的 访问 通过 函数 
接口 完成 ， 因 而 无 需 了 解 它 们 出 现在 分 组 中 的 真实 格式 。 这 些 扩展 首部 作为 辅助 数据 经 调用 
sendmsg 发 送 ， 又 作为 辅助 数据 由 recvmsg 调 用 返回 。 


RR 


习题 


27.1 在 27.3 节 末尾 的 IPv4 源 路 径 例子 中 ， 如 果 我 们 指定 -G 选 项 而 不 是 -g 选 项 ， 将 有 什么 变化 ? 

272 调用 setsockopt 设 置 TP_OPTIONS 套 接 字 选项 时 所 指定 的 缓冲 区 长 度 必 须 是 4 字 节 的 倍数 。 如 果 我 
们 没有 像 图 27-1 所 示 的 那样 在 缓冲 区 开始 处 安置 一 个 NOP， 那 么 该 怎么 办 ? 

27.33 ” 当 使 用 IP 记 录 路 径 〈Record Route) 选项 时 〈 在 TCPv1 的 7.3 节 讲解 ) ，ping 程 序 如 何 接收 源 路 径 ? 

274 在 27.3 节 末尾 给 出 的 出 自 rlogind 服 务 器 程序 用 于 清除 接收 源 路 径 的 示例 代码 中 ， 为 什么 
getsockopt 和 setsockopt 的 套 接 字 撕 述 符 参 数 为 0? 

27.5 27.3 节 末尾 给 出 的 用 于 清除 接收 源 路 径 的 代码 曾经 有 很 多 年 大 体 如 下 : 


optsize = 0; 
setsockopt (0, IPPROTO IP, IP OPTIONS, NULL, &optsize); 


这 段 代码 有 什么 差错 ? 是 否 要 紧 ? 





- 
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28.1 


原始 套 接 字 





概述 





原始 套 接 字 提 供 普通 的 TCP 和 UDP 套 接 字 所 不 提供 的 以 下 3 个 能 力 。 


有 了 原始 套 接 字 ， 进 程 可 以 读 与 写 ICMPv4、IGMPv4 和 ICMPv6 等 分 组 。 举 例 来 说 ，ping 
程序 就 使 用 原始 套 接 字 发 送 ICMP 回 射 请 求 并 接收 ICMP 回 射 应 答 。( 我 们 将 在 28.5 节 自 
行 开发 ping 程 序 的 一 个 版 本 。 ) 多 播 路 由 守护 程序 mrouted 也 使 用 原始 套 接 字 发 送 和 接收 
IGMPv4 分 组 。 

这 个 能 力 还 使 得 使 用 ICMP 或 IGMP 构 筑 的 应 用 程序 能 够 完全 作为 用 户 进程 处 理 ， 而 不 必 
往 内 核 中 额外 添加 编码 。 举例 来 说 , 路 由 器 发 现 守护 程序 (在 Solaris 2.x 上 名 为 in.rdisc， 
TCPv1 附 录 F 讲 解 如 何 获取 它 的 一 个 公开 可 得 版 本 的 源 代码 ) 就 是 如 此 构筑 的 。 该 程序 处 
理 内 核 完全 不 认识 的 两 个 ICMP 消 息 〈 路 由 器 通告 和 路 由 器 征求 )。 

有 了 原始 套 接 字 , 进程 可 以 读 写 内 核 不 处 理 其 协议 字段 的 IPv4 数 据 报 。 回顾 图 A-1 所 示 的 
8 位 IPv4 协 议 字 段 。 大 多 数 内 核 仅 仅 处 理 该 字段 值 为 ! (ICMP)、2 (IGMP), 6 (TCP) 

和 17 (UDP) 的 数据 报 。 然而 为 协议 字段 定义 的 值 还 有 不 少 : IANA 的 “Protocol Numbers” 
注册 处 列 出 了 所 有 取 值 。 举 例 来 说 ，OSPF 路 由 协议 既 不 使 用 TCP 也 不 使 用 UDP， 而 是 通 
过 收发 协议 字段 为 89 的 也 数据 报 而 直接 使 用 人 。 实 现 OSPF 的 gatea 守 护 程 序 必须 使 用 原 
始 套 接 字 读 与 写 这 些 IP 数 据 报 , 因为 内 核 不 知道 如 何 处 理 协议 字段 值 为 89 的 IPv4 数 据 报 。 
这 个 能 力 还 延续 到 IPv6。 

有 了 原始 套 接 字 ， 进 程 还 可 以 使 用 IP_HDRINCL 套 接 字 选 项 自行 构造 IPv4 首 部 。 这 个 能 力 
可 用 于 构造 譬如 说 TCP 或 UDP 分 组 ， 我 们 将 在 29.7 节 给 出 这 样 的 一 个 例子 。 


本 章 介 绍 了 原始 套 接 字 的 创建 、 输 入 和 输出 。 我 们 还 将 开发 在 IPv4 和 IPv6 环 境 下 均 可 使 用 


的 ping 和 traceroute 程 序 。 


28.2 ”原始 套 接 字 创建 


创建 一 个 原始 套 接 字 涉 及 如 下 步骤 。 

(1) 把 第 二 个 参数 指定 为 SocK_Ram 并 调用 socket 函 数 ， 以 创建 一 个 原始 套 接 字 。 第 三 个 参 
数 〈 协 议 ) 通常 不 为 0。 举 例 来 说 ， 我 们 使 用 如 下 代码 创建 一 个 PPv4 原 始 套 接 字 ， 

int sockfd; 

sockfd = socket (AF_INET, SOCK RAW, protocol); 
其 中 protocol 参 数 是 形 如 IPPROTO_xxx 的 某 个 常 值 ， 定 义 在 <netinet/in.h> 头 文件 中 ， 如 


IPPROTO_IGMP. ? 


© 需 清楚 的 是 , 并 非 因为 该 头 文件 中 定义 了 某 个 协议 的 名 字 (如 IPPROTO_EGP) 就 意味 着 内 核 必然 支持 这 个 协议 。 
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只 有 超级 用 户 才能 创建 原始 套 接 字 ， 这 么 做 可 防止 普通 用 户 往 网 络 写 出 它们 自行 构造 的 IP 
数据 报 。 

(2) 可 以 在 这 个 原始 套 接 字 上 按 以 下 方式 开启 IP_HDRINCL 套 接 字 选项 : 

const int on = 1; 


if (setsockopt(sockfd, IPPROTO IP, IP HDRINCL, &on, sizeof(on)) « 0) 
出 错 处 理 


我 们 将 在 下 一 节 讲 解 本 套 接 字 选 项 的 效用 。 

(3) 可 以 在 这 个 原始 套 接 字 上 调用 bina 函 数 ， 不 过 比较 少见 。bina 函 数 仅仅 设置 本 地 地 址 ， 
因为 原始 套 接 字 不 存在 端口 号 的 概念 。 就 输出 而 言 ， 调 用 bind 设 置 的 是 将 用 于 从 这 个 原始 套 接 
字 发 送 的 所 有 数据 报 的 源 IP 地 址 〈 只 在 IP_HDRINCL 套 接 字 选项 未 开启 的 前 提 下 )。 如 果 不 调 用 
bind， 内 核 就 把 源 了 地 址 设置 为 外 出 接口 的 主 耳 地址。 

(4) 可 以 在 这 个 原始 套 接 字 上 调用 connect 函 数 ， 不 过 也 比较 少见 。connect 函 数 仅 仅 设 置 
外 地 地 址 ， 同 样 因为 原始 套 接 字 不 存在 端口 号 的 概念 。 就 输出 而 言 ， 调 用 connect 之 后 我 们 可 
以 把 sendto 调 用 改 为 write 或 send 调 用 ， 因 为 目的 IP 地 址 已 经 指定 了 。 


283 原始 套 接 字 输 出 


原始 套 接 字 的 输出 遵循 以 下 规则 。 

e 普通 输出 通过 调用 sendto 或 sendmsg 并 指定 目的 人 PP 地址 完成 。 如 果 套 接 字 已 经 连接 ， 那 
么 也 可 以 调用 write、writev 或 send。 

e 如 果 IP_HDRINCL 套 接 字 选项 未 开启 , 那么 由 进程 让 内 核发 送 的 数据 的 起 始 地 址 指 的 是 下 
首部 之 后 的 第 一 个 字 节 ， 因 为 内 核 将 构造 JP 首部 并 把 它 置 于 来 自 进程 的 数据 之 前 。 内 核 
把 所 构造 I[Pv4 首 部 的 协议 字段 设置 成 来 自 socket 调 用 的 第 三 个 参数 。 

e 如 果 IP_HDRINCL 套 接 字 选 项 已 开启 , 那么 由 进程 让 内 核发 送 的 数据 的 起 始 地 址 指 的 是 IP 
首部 的 第 一 个 字 节 。 进 程 调用 输出 函数 写 出 的 数据 量 必须 包括 IP 首 部 的 大 小 。 整 个 正 首 
部 由 进程 构造 ， 不 过 (a) IPv4 标 识字 段 可 置 为 0， 从 而 告知 内 核 设 置 该 值 ，(b) IPv4 首 
部 校 验 和 字段 总 是 由 内 核 计 算 并 存储 ，(c) IPv4 选 项 字段 是 可 选 的 。 

e 内 核 会 对 超出 外 出 接口 MTU 的 原始 分 组 执行 分 片 。 


原始 套 接 字 在 文档 中 被 档 述 为 如 果 它 处 于 内 核 中 ， 那 么 就 为 协议 所 拥有 的 原始 套 接 字 提 
供 同 样 的 接口 。[McKusick et al.1996] 不 幸 的 是 ， 这 表示 某 些 API 是 依赖 于 操作 系统 内 核 的 ， 
尤其 是 和 IP 首 部 字段 的 字 节 序 有 关 。 在 许多 源 自 Berkeley 的 内 核 上 ， 除 了 ip_len 和 ip_off 采 
用 主机 字 节 序 外 ， 其 他 字段 都 采用 网 络 字 节 序 (TCPv2 第 233 页 和 第 1057 页 ) 。 然 而 在 Linux 
和 OpenBSD 上 ， 所 有 字段 都 采用 网 络 字 节 序 。 

IP_HDRINCL 套 接 字 选 项 随 4.3BSD Reno 引 入 。 在 此 之 前 ， 应 用 进程 为 通过 某 个 原始 套 接 
字 发 送 的 分 组 自行 指定 IP 首 部 的 唯一 手段 是 应 用 由 Van Jacobson 为 支持 traceroute 而 于 1988 
年 给 出 的 一 个 内 核 补 丁 。 访 补丁 要 求 应 用 进程 指定 协议 参数 为 TPPROTO_RAW 调 用 socket 创 
建 一 个 原始 IP 套 接 字 。IPPROTO_RAW 的 值 为 255， 它 是 一 个 保留 值 ， 从 不 允许 作为 IP 首 部 中 的 
协议 字段 出 现 。 

在 原始 套 接 字 上 执行 输入 和 输出 的 函数 属于 内 核 中 最 简单 的 一 些 函 数 。 举例 来 说 ， 在 
TCPv2 中 ， 原 始 套 接 字 上 的 输入 和 输出 函数 各 自 约 需 40 行 C 代 码 ( 第 1054~1057 页 ) ， 而 TCP 
给 入 函数 约 需 2000 行 ，TCP 输 出 函数 约 需 700 行 。 


我 们 就 ITP_HDRINCL 套 接 字 选 项 的 讲解 针对 的 是 4.4BSD。 更 早 的 版 本 〈 例 如 Net2) 在 开启 
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该 选项 之 后 会 由 内 核 在 IP 首 部 中 填写 更 多 的 字段 。 

对 于 IPv4， 计算 并 设置 IPv4 首 部 之 后 所 含 的 任何 首部 校 验 和 是 用 户 进程 的 责任 。 举 例 来 说 ， 
在 我 们 的 ping 程 序 中 〔 图 28-14)， 我 们 必须 在 调用 sendto 之 前 计算 ICMPv4 校 验 和 并 将 它 存 入 
ICMPv4 首 部 。 


28.8.4 IPv6 的 差异 


IPv6 原 始 套 接 字 与 IPv4 相 比 存在 如 下 差异 (RFC 3542 [Stevens et al. 2003])。 

e. 通过 IPv6 原 始 套 接 字 发 送 和 接收 的 协议 首部 中 的 所 有 字段 均 采 用 网 络 字 节 序 。 

e IPv6 不 存在 与 IPv4 的 IP_HDRINCL 套 接 字 选 项 类 似 的 东西 。 通 过 IPv6 原 始 套 接 字 无 法 读 入 
或 写 出 完整 的 IPv6 分 组 (包括 IPv6 首 部 和 任何 扩展 首部 )。IPv6 首 部 的 几乎 所 有 字段 以 及 
所 有 扩展 首部 都 可 以 通过 套 接 字 选 项 或 辅助 数据 由 应 用 进程 指定 或 获取 (见习 题 28.1)。 
如 果 应 用 进程 需要 读 入 或 写 出 完整 的 IPv6 数 据 报 , 那 就 必须 使 用 数据 链 路 访问 (第 29 章 )。 

e IPv6 原 始 套 接 字 的 校 验 和 处 理 存在 差异 ， 我 们 马上 就 讲解 。 


28.3.2 IPV6 CHECKSUM 套 接 字 选项 


对 于 ICMPv6 原 始 套 接 字 ， 内 核 总 是 计算 并 存储 ICMPv6 首 部 中 的 校 验 和 。 这 一 点 不 同 于 
ICMPv4 原 始 套 接 字 ， 也 就 是 说 ICMPv4 首 部 中 的 校 验 和 必须 由 应 用 进程 自行 计算 并 存储 《比较 
图 28-14 和 图 28-16)。 尽 管 ITCMPv4 和 ICMPv6 都 要 求 发 送 者 计算 校 验 和 ，ICMPv6 却 在 其 校 验 和 中 
包括 一 个 伪 首 部 (pseudoheader) (我 们 将 在 图 29-14 中 计算 UDP 校 验 和 时 讨论 伪 首 部 的 概念 )。 
该 伪 首 部 中 的 字段 之 一 是 源 IPv6 地 址 ， 而 应 用 进程 通常 让 内 核 选择 其 值 。 与 其 让 应 用 进程 就 为 
了 计算 校 验 和 而 不 得 不 试图 自行 选择 这 个 地 址 ， 还 不 如 由 内 核 计 算 校 验 和 来 得 更 为 容易 。 

对 于 其 他 IPv6 原 始 套 接 字 (不 是 以 IPPROTO_ICMPV6 为 第 三 个 参数 调用 socket 创 建 的 那些 
原始 套 接 字 )， 进 程 可 以 使 用 一 个 套 接 字 选项 告知 内 核 是 否 计算 并 存储 外 出 分 组 中 的 校 验 和 , H 
验证 接收 分 组 中 的 校 验 和 。 该 选项 默认 情况 下 是 禁止 的 ， 不 过 把 它 的 值 设置 为 某 个 非 负 值 就 可 
以 开启 该 选项 ， 例 如 如 下 代码 : 

int offset = 2; 


if (setsockopt(sockfd, IPPROTO IPV6, IPV6 CHECKSUM, 
&offset, sizeof(offset)) < 0) 


出 错 处 理 
这 段 代码 不 仅 开启 指定 套 接 字 上 的 校 验 和 ， 而 且 告知 内 核 这 个 16 位 的 校 验 和 字段 的 字 节 偏 
移 量 : 本 例 中 为 自 应 用 数据 开始 处 起 偏 移 2 个 字 节 。 禁 止 该 选项 要 求 把 这 个 偏 移 量 设 置 为 -1。 一 
旦 开启 ， 内 核 将 为 在 指定 套 接 字 上 发 送 的 外 出 分 组 计算 并 存储 校 验 和 ， 并 且 为 在 该 套 接 字 接 收 
的 外 来 分 组 验证 校 验 和 。 


就 原始 套 接 字 的 输入 我 们 必须 首先 回答 的 问题 是 ， 内 核 把 哪些 接收 到 的 耳 数据 报 传递 到 原 
始 套 接 字 ? 这 儿 遵 循 如 下 规则 。 
o 接收 到 的 UDP 分 组 和 TCP 分 组 绝 不 传递 到 任何 原始 套 接 字 。 如 果 一 个 进程 想 要 读 取 含 有 
UDP 分 组 或 TCP 分 组 的 下 数据 报 ， 它 就 必须 在 数据 链 路 层 读 取 这 些 分 组 〈 第 29 章 )。 
© 大 多 数 ICMP 分 组 在 内 核 处 理 完 其 中 的 ICMP 消 息 后 传递 到 原始 套 接 字 。 源 自 Berkeley 的 
实现 把 不 是 回 射 请 求 、 时 间 稚 请 求 或 地 址 掩 码 请 求 ( 这 三 类 ICMP 消 息 全 由 内 核 处 理 ) 的 
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所 有 接收 到 的 ICMP 分 组 传递 给 原始 套 接 字 〈TCPv2 第 302~303 页 )。 
。 所 有 IGMP 分 组 在 内 核 完成 处 理 其 中 的 IGMP 消 息 后 传递 到 原始 套 接 字 。 
。 内 核 不 认识 其 协议 字段 的 所 有 了 PP 数据 报 传递 到 原始 套 接 字 。 内 核对 这 些 分 组 执行 的 唯一 
处 理 是 针对 某 些 耻 首部 字段 的 最 小 验证 : 了 版 本 、IPv4 首 部 校 验 和 、 首 部 长 度 以 及 目的 
IP 地 址 (TCPv2 第 213~220 页 )。 
e 如 果 某 个 数据 报 以 片段 形式 到 达 ， 那 么 在 它 的 所 有 片段 均 到 达 且 重组 出 该 数据 报 之 前 ， 
不 传递 任何 片段 分 组 到 原始 套 接 字 。 
当 内 核 有 一 个 需 传递 到 原始 套 接 字 的 IP 数 据 报时 , 它 将 检查 所 有 进程 上 的 所 有 原始 套 接 字 ， 
以 寻找 所 有 匹配 的 套 接 字 。 每 个 匹配 的 套 接 字 将 被 递送 以 该 了 数据 报 的 一 个 副本 。 内 核对 每 个 
原始 套 接 字 均 执行 如 下 3 个 测试 ， 只 有 这 3 个 测试 结果 均 为 真 ， 内 核 才 把 接收 到 的 数据 报 递送 到 
这 个 套 接 字 。 
e 如 果 创 建 这 个 原始 套 接 字 时 指定 了 非 0 的 协议 参数 (socket 的 第 三 个 参数 )， 那 么 接收 到 
的 数据 报 的 协议 字段 必须 匹配 该 值 ， 否 则 该 数据 报 不 递送 到 这 个 套 接 字 。 
e 如 果 这 个 原始 套 接 字 已 由 bina 调 用 绑 定 了 某 个 本 地 IP 地 址 ， 那 么 接收 到 的 数据 报 的 目的 
IP 地 址 必须 匹配 这 个 绑 定 地 址 ， 和 否则 该 数据 报 不 递送 到 这 个 套 接 字 。 
。 如 果 这 个 原始 套 接 字 已 由 connect 调 用 指定 了 某 个 外 地 下 地 址 ， 那 么 接收 到 的 数据 报 的 
源 中 地 址 必须 匹配 这 个 已 连接 地 址 ， 否 则 该 数据 报 不 递送 到 这 个 套 接 字 。 
注意 ， 如 果 一 个 原始 套 接 字 是 以 0 值 协议 参数 创建 的 ， 而 且 既 未 对 它 调用 过 bind， 也 未 对 
它 调用 过 connect， 那 么 该 套 接 字 将 接收 可 由 内 核 传递 到 原始 套 接 字 的 每 个 原始 数据 报 的 一 个 
副本 。 
无 论 何 时 往 一 个 原始 IPv4 套 接 字 递送 一 个 接收 到 的 数据 报 ， 传 递 到 该 套 接 字 所 在 进程 的 都 
是 包括 IP 首 部 在 内 的 完整 数据 报 。 然 而 对 于 原始 IPv6 套 接 字 ， 传 递 到 套 接 字 的 只 是 扣除 了 IPv6 
首部 和 所 有 扩展 首部 的 净 荷 〈payload)〈 例 如 图 28-11 和 图 28-22 )。 


在 传递 给 应 用 进程 的 IPv4 首 部 中 ，ip_len、 ip_off 和 ip_id 采 用 主机 字 节 序 ， 其 中 
ip_len 是 扣除 IP 首 部 ( 包括 JP 选项 字段 ) 的 净 荷 长 度 ， 其 余 字 段 则 采用 网 络 字 节 序 。 在 Linux 
上 所 有 字段 均 保 持原 本 的 网 络 字 节 序 不 变 ， 

正如 早先 所 提 ， 定 义 原 始 套 接 字 的 目的 在 于 提供 一 个 访问 某 个 协议 的 接口 ， 就 像 该 协议 
在 内 核 中 提供 了 这 个 接口 那样 ， 因 此 这 些 字 段 的 内 容 取 决 于 OS 内 核 。 

我 们 在 上 一 节 提 到 过 ， 在 原始 IPv6 套 接 字 上 收取 的 数据 报 中 所 有 字段 均 保持 原本 的 网 络 
字 节 序 不 变 。 


ICMPv6 类 型 过 滤 


原始 ICMPv4 套 接 字 被 递送 以 由 内 核 接收 的 大 多 数 ICMPv4 消 息 。 然 而 ICMPv6 在 功用 上 是 
ICMPv4 的 超 集 ， 它 把 ARP 和 IGMP (2.215) 的 功能 也 包括 在 内 。 因 此 相 比 原始 ICMPv4 套 接 字 ， 
原始 ICMPv6 套 接 字 有 可 能 收取 多 得 多 的 分 组 。 可 是 使 用 原始 套 接 字 的 应 用 程序 大 多 数 仅仅 关注 
所 有 ICMP 消 息 的 某 个 小 子 集 。 

为 了 缩减 由 内 核 通过 原始 ICMPv6 套 接 字 传递 到 应 用 进程 的 分 组 数量 , 应 用 进程 可 以 自行 提 
供 一 个 过 滤器 。 原 始 ICMPv6 套 接 字 上 的 过 滤器 使 用 定义 在 <netinet/icmp6.h> 头 文件 中 的 数 
据 类 型 struct icmp6 fi lter 声 明 ， 并 使 用 level £ BA IPPROTO, ICMPV6 H.optname & 数 为 
ICMP6_FILTER 的 setsockopt 和 getsockopt 调 用 来 设置 和 获取 。 

以 下 6 个 宏 用 于 操作 icmp6_filter 结 构 。 
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#include <netinet/icmp6.h> 

void ICMP6 FILTER SETPASSALL(struct icmp6 filter *filt); 

void ICMP6 FILTER SETBLOCKALL(struct icmp6 filter *filt); 

void ICMP6 FILTER SETPASS(int msgtype, struct icmp6, filter *filt); 


void ICMP6 FILTER, SETBLOCK(int msgtype, struct icmp6 filter *filt); 
int ICMP6 FILTER WILLPASS(int msgtype, const struct icmpé filter *filt); 
int ICMP6 FILTER WILLBLOCK(int msgtype, const struct icmp6 filter *filt); 


均 返 回 ， 若 过 滤器 放行 《或 阻止 ) 给 定 消息 类 型 则 为 1， 和 否则 为 0 


所 有 这 些 宏 中 的 filt 参 数 是 指向 某 个 icmp6_filter 变 量 的 一 个 指针 ， 其 中 前 4 个 宏 修 改 该 变 
量 ， 后 2 个 宏 查看 该 变量 。msgtype 参 数 在 0~255 之 间 取 值 ， 指 定 ICMP 消 息 类 型 。 

SETPASSALL 宏 指定 所 有 消息 类 型 都 传递 到 应 用 进程 , SETBLOCKALL 宏 则 指定 不 传递 任何 消 
息 类 型 。 作 为 默认 设置 ， 任 一 应 用 进程 一 旦 创建 一 个 ICMPv6 原 始 套 接 字 ， 所 有 ICMPv6 消 息 类 
型 都 允许 通过 该 套 接 字 传递 到 该 应 用 进程 。 

SaTPASS 宏 放行 某 个 指定 消息 类 型 到 应 用 进程 的 传递 ，SETBLOCK 宏 则 阻止 某 个 指定 消息 类 
型 的 传递 。 如 果 指 定 消息 类 型 被 过 滤器 放行 ，wILLPAss 宏 就 返回 1， 和 否则 返回 0， 如 果 指 定 消 息 
类 型 被 过 滤器 阻止 ，wILLBLOCK 宏 就 返回 1， 否 则 返回 0。 

作为 一 个 例子 ， 考 虑 只 想 接收 ICMPv6 路 由 器 通告 消息 的 某 个 应 用 程序 的 如 下 代码 片段 。 


struct icmp6 filter myfilt; 








fd = Socket (AF_INET6, SOCK RAW, IPPROTO_ICMPV6) ; 


ICMP6_FILTER_SETBLOCKALL (&myfilt.); 
ICMP6 FILTER SETPASS(ND ROUTER ADVERT, &myfilt); 
Setsockopt (fd, IPPROTO ICMPV6, ICMP6 FILTER, &myfilt, sizeof(myfilt)); 


本 例子 首先 阻止 所 有 消息 类 型 的 传递 (因为 默认 设置 是 传递 所 有 消息 类 型 ), 然后 只 放行 路 
由 器 通告 消息 的 传递 。 尽 管 如 此 设置 了 过 滤器 ， 该 应 用 仍 得 做 好 会 收 到 所 有 消息 类 型 的 准备 ， 
因为 在 socket 和 setsockopt 这 两 个 调用 之 间 到 达 的 任何 ICMPv6 消 息 将 被 添加 到 接收 队列 中 。 
ICMP6_FILTER 套 接 字 选 项 仅仅 是 一 个 优化 措施 。 


pem CUTE mee ES 


我 们 在 本 节 开 发 一 个 同时 支持 IPv4 和 IPv6 的 ping 程 序 版 本 。 我 们 自行 开发 这 个 程序 而 不 直 
接 提供 它 的 公开 可 得 版 本 源 代码 的 理由 有 两 个 。 首 先 ， 公 开 可 得 的 ping 程 序 犯 有 被 称 为 特性 蔓 
3É (creeping featurism) 的 一 个 编程 通病 : 它 支持 多 不 同 的 选项 。 我 们 查看 ping 程 序 的 目的 是 
了 解 网 络 编程 概念 和 技巧 ， 而 不 应 该 被 众多 的 选项 分 散 了 注意 力 。 我 们 的 ping 程 序 版 本 仅仅 支 
持 一 个 选项 ， 篇 幅 约 为 公开 可 得 版 本 的 五 分 之 一 。 其 次 ， 公 开 可 得 版 本 仅仅 支持 IPv4， 而 我 们 
希望 展示 一 个 也 支持 IPv6 的 版 本 。 

ping 程 序 的 操作 非常 简单 ， 往 某 个 耿 地 址 发 送 一 个 ICMP 回 射 请 求 ， 该 节点 则 以 一 个 ICMP 
回 射 应 答 响应 。IPv4 和 IPv6 都 支持 这 两 种 ICMP 消 息 。 图 28-1 展 示 了 ICMP 消 息 的 格式 。 

图 A-15 和 图 A-16 给 出 了 这 些 消息 的 类 型 (type) 值 ， 并 指出 它们 的 代码 (code) 18790. TE 
我 们 的 ping 程 序 中 ， 我 们 把 标识 符 〈identifier) 设置 为 ping 进 程 的 进程 I， 并 且 为 每 个 发 送出 
去 的 分 组 递增 序列 号 〈sequence number)。 我 们 还 以 可 选 数据 Coptional data) 的 形式 存放 分 组 
发 送 时 刻 的 8 字 节 时 间 惟 。ICMP 规 则 要 求 在 回 射 应答 中 返回 来 自 回 射 请 求 的 标识 符 、 序 列 号 和 
任何 可 选 数 据 。 在 回 射 请 求 中 存放 时 间 戳 使 得 我 们 可 以 在 收 到 回 射 应 答 时 计算 RIT。 


——ÓÓÁ———————— € —————— RT 
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图 28-1 ICMPv4 和 ICMPv6 回 射 请 求 和 回 射 应答 消 息 的 格式 


图 28-2 展 示 了 本 程序 的 两 个 运行 例子 :第 一 个 使 用 [Pv4， 第 二 个 使 用 IPv6。 我 们 为 这 个 程 
序 的 可 执行 文件 设置 了 setuid 到 root 的 属性 ， 因 为 创建 原始 套 接 字 需 要 超级 用 户 特权 。 


freebsd % ping www.google.com 

PING www.google.com (216.239.57.99): 56 data bytes 

64 bytes from 216.239.57.99: seq-0, tt1-53, rtt=5.611 ms 
64 bytes from 216.239.57.99: seg-1, ttl-53, rtt-5.562 ms 
64 bytes from 216.239.57.99: seq=2, tt1=53, rtt-5.589 ms 
64 bytes from 216.239.57.99: seq-3, ttl-53, rttz5.910 ms 


freebsd % ping www.kame.net 

PING orange.kame.net (2001:200:0:4819:203:47f£f:f06a5:3085): 56 data bytes 

64 bytes from 2001:200:0:4819:203:47ff:fea5:3085: seq-0, hlim-52, rtt-422.066 ms 
64 bytes from 2001:200:0:4819:203:47ff:fea5:3085: seq-1, hlim-52, rtt-417.398 ms 
64 bytes from 2001:200:0:4819:203:47££:fea5:3085: seq-2, hlim-52, rtt-416.528 ms 
64 bytes from 2001:200:0:4819:203:47ff:fea5:3085: seq-3, hlim=52, rtt-429.192 ms 


图 28-2 ping 程 序 运 行 例子 输出 


图 28-3 是 构成 我 们 的 ping 程 序 的 各 个 函数 及 调用 关系 的 概貌 。 
为 STGALRM 建 立信 号 处 理 函数 







或 


— 
无 限 接收 循环 每 秒 钟 发 送 - -个 回 射 请 求 
图 28-3 ”我 们 的 ping 程 序 中 各 个 函数 的 概貌 


程序 分 为 两 大 部 分 , 一 部 分 在 一 个 原始 套 接 字 上 读 入 收 到 的 每 个 分 组 , 显示 ICMP 回 射 应 答 ， 
另 一 部 分 每 隔 一 秒 钟 发 送 一 个 ICMP 回 射 请 求 。 第 二 部 分 由 SIGALRM 信 号 每 秒 钟 驱动 一 次 。 pt 
图 28-4 给 出 了 所 有 程序 文件 都 包含 的 头 文件 ping.h。 742 
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OO ——. ping/ping.h 
1 #include "unp.h" 
2 #include «netinet/in systm.h» 
3 #include «netinet/ip.h» 
4 #include «netinet/ip icmp.h» 
5 #define BUFSIZE 1500 
6 /* globals */ 
7 char sendbuf [BUFSIZE]; 
B int datalen; /* # bytes of data following ICMP header */ 
9 char *host; 
10 int nsent ; /* add 1 for each sendto() */ 
11 pidt pid; /* our PID */ 
12 int sockfd; 
13 int verbose; 
14 /* function prototypes */ 
15 void init, v6 (void); 
16 void proc, vVd(char *, ssize t, struct msghdr *, struct timeval *); 
17 void proc v6(char *, ssize t, struct msghdr *, struct timeval *); 
18 void send v4 (void); 
19 void send v6 (void); 
20 void readloop(void); 
21 void sig alrm(int); 
22 void tv sub(struct timeval *, struct timeval *); 
23 struct proto ( 
24 void (*£proc)(char *, ssize t, struct msghdr *, struct timeval *); 
25 void (*£send) (void); 
26 void (*finit) (void); 
27 struct sockaddr  *sasend; /* sockaddr() for send, from getaddrinfo */ 
28 struct sockaddr  *sarecv; /* sockaddr{} for receiving */ 
29 socklen_t salen; /* length of sockaddr{}s */ 
30 int icmpproto; /* IPPROTO_xxx value for ICMP */ 
31 ) *pr; 
32 #ifdef  IPV6 
33 finclude «netinet/ip6.h» 
34 #include «netinet/icmp6.h» 
35 fendif 
ping/ping.h 
图 28-4 ping. nik Mt 
包含 IPv4 和 ICMPv4 头 文件 


1-22 ”我们 包含 基本 的 IFPv4 和 ICMPv4 头 文件 ， 定 义 一 些 全 局 变量 以 及 各 个 函数 的 原型 。 

定义 proto 结 构 

23-31 我们 使 用 proto 结 构 处 理 IPv4 与 IPv6 之 间 的 差异 。 这 个 结构 包含 3 个 函数 指针 、2 个 套 接 
字 地 址 结构 指针 、 这 2 个 套 接 字 地 址 结构 的 大 小 以 及 ICMP 的 协议 值 。 全 局 指针 变量 pr 
将 指向 为 IPv4 或 IPv6 初 始 化 的 某 个 proto 结 构 。 

包含 IPv6 和 ICMPv6 头 文件 

32-35 ”我 们 包含 定义 IPvV6 和 ICMPv6 结 构 和 常 值 的 2 个 头 文件 (RFC 3542 [Stevens et al. 2003 ])。 

main 函 数 如 图 28-5 所 示 。 


mi 


iD © THUS UN 
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ping/main.c 
#include “ping.h" 
struct proto proto_v4 = 

{ proc_v4, send_v4, NULL, NULL, NULL, 0, IPPROTO_ICMP }; 


#ifdef  IPV6 
struct protoproto_v6 = 
( proc v6, send v6, init v6, NULL, NULL, 0, IPPROTO_ICMPV6 }; 
fendif 
int datalen = 56; /* data that goes with ICMP echo request */ 
int 
main(int argc, char **argv) 
{ 
int e; 
Struct addrinfo *ai; 
char *h; 


opterr - 0; /* don't want getopt() writing to stderr */ 
while ( (c = getopt (argc, argv, "v")) != -1) ( 
switch (c) ( 
case 'v': 
verbose++; 
break; 


case '?'; 
err_quit ("unrecognized option: %c", c); 


} 


if (optind != argc-1) 
err quit("usage: ping [ -v ] «hostname»"); 
host - argv[optind]; 


pid - getpid() & Oxffff; /* ICMP ID field is 16 bits */ 
Signal(SIGALRM, sig alrm); 


ai = Host serv(host, NULL, 0, 0); 


h = Sock ntop host(ai-»ai addr, ai-»ai addrlen); 
printf("PING $s ($s): $d data bytes\n", 
ai-»ai canonname ? ai-»ai canonname : h, h, datalen); 


/* initialize according to protocol */ 
if (ai->ai_family == AF_INET) { 
pr = &proto_v4; 
#ifdef  IPV6 
) else if (ai->ai_family == AF INET6) ( 
pr - &proto v6; 
if (IN6 IS ADDR V4MAPPED(&(((struct sockaddr_in6 *) 
ai-»ai, addr)-»sin6, addr))) 
err quit("cannot ping IPv4-mapped IPv6 address*); 
#endif 
} else 
err_quit ("unknown address family %d", ai->ai_family); 


pr->sasend = ai->ai_addr; 
pr->sarecv = Calloc(1, ai->ai_addrlen) ; 
pr->salen = ai->ai_addrlen; 


readloop(); 


exit(0); 


-人 ”一 — ping/main.c 


图 28-5 _ main 函数 
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定义 IPv4 和 IPv6 的 proto 结 构 
2~7 ”为 IPvV4 和 IPv6 分 别 定义 一 个 broto 结 构 。 其 中 套 接 字 地 址 结构 指针 成 员 均 初始 化 为 空 指 
针 ， 因 为 我 们 还 不 知道 最 终 使 用 的 是 IPv4 还 是 IPv6。 
可 选 数据 的 长 度 
8 把 随同 回 射 请 求 发 送 的 可 选 数据 量 设置 为 56 个 字 节 , 由 此 产生 84 字 节 的 IPv4 数 据 报 ( 包 
括 20 字 节 IPv4 首 部 和 8 字 节 ICMP 首 部 ) 或 104 字 节 的 IPv6 数 据 报 。 随 同 某 个 回 射 请 求 发 
送 的 任何 数据 必须 在 对 应 的 回 射 应 答 中 返 送 回 来 。 我 们 将 在 这 个 数据 区 的 前 8 个 字 节 存 
放 本 回 射 请 求 发 送 时 刻 的 时 间 蕉 ， 然 后 在 收 到 对 应 的 回 射 应答 之 时 使 用 返 送 回来 的 时 
间 惟 计算 并 显示 RTT。 
处 理 命令 行 选项 
15-29 本 程序 唯一 支持 的 命令 行 选项 是 -v， 它 可 使 我 们 显示 接收 到 的 大 多 数 ICMP 消 息 。( 我 
们 只 显示 属于 本 ping 进 程 的 ICMP 回 射 应 答 。) 建立 SIGALRM 信 和 号 的 信和 号 处 理 函 数 ， 我 
们 将 看 到 该 信号 一 经 启动 将 每 秒 钟 产 生 一 次 ， 导 致 每 秒 钟 发 送 一 个 ICMP 回 射 请 求 。 
处 理 主机 名 参数 
30-48 ”在 命令 行 参数 中 必须 有 一 个 主机 名 或 IP 地 址 数 串 ， 我 们 调用 host_serv 函 数 来 处 理 它 。 
返回 的 aGdrinfo 结 构 中 含有 协议 族 : 或 为 AF_INET， 或 为 AF_INET6。 据 此 初始 化 全 局 
指针 变量 pr， 让 它 指向 正确 的 proto 结 构 。 我 们 还 调用 IN6_IS_ADDR_V4MAPPED 确 认 由 
host_serv 返 回 的 IPv6 地 址 不 是 一 个 IPv4 映 射 的 IPv6 地 址 ， 因 为 这 样 的 地 址 尽管 是 一 个 
IPv6 地 址 ， 发 送 给 其 主机 的 却 是 IPv4 分 组 。( 这 种 情况 下 我 们 可 以 直接 改 用 IPv4 地 址 。) 
把 已 由 getadqrinfo 函 数 分 配 的 套 接 字 地 址 结构 用 于 发 送 ， 并 另行 分 配 一 个 同样 大 小 


的 套 接 字 地 址 结构 用 于 接收 。 
49 ”调用 readloop 函 数 执行 处 理 。 该 函数 如 图 28-6 所 示 。 
创建 套 接 字 


12-13 ”创建 一 个 合适 协议 的 原始 套 接 字 。 调 用 setuid 把 进程 的 有 效用 户 人 D 设 置 为 实际 用 户 
ID， 适 用 于 本 程序 的 可 执行 文件 具有 setuid 到 root 的 属性 且 以 普通 用 户 执 行 它 的 情 
形 。 运行 本 程序 的 进程 必须 拥有 超级 用 户 特权 才能 创建 原始 套 接 字 ， 不 过 既然 套 接 字 
已 经 建成 ， 该 进程 就 可 以 放弃 这 个 额外 特权 了 。 这 类 需要 短暂 拥有 额外 特权 的 程序 最 
好 是 一 旦 不 再 需要 某 个 额外 特权 就 放弃 它 ， 以 防 程序 中 可 能 潜伏 的 缺陷 被 攻击 者 利 
用 。 

执行 特定 于 协议 的 初始 化 

14-15 ”如 果 所 用 协议 有 一 个 初始 化 函数 ， 那 就 调用 它 。 我 们 将 在 图 28-10 给 出 用 于 IPv6 的 初始 
化 函数 。 

设置 套 接 字 接 收 缓冲 区 的 大 小 

16-17 ”我 们 试图 把 套 接 字 接 收 缓冲 区 大 小 设置 为 61440 字 节 (60X1024)， 它 应 该 比 默认 设置 
大 。 这 么 做 可 以 防备 用 户 对 IPv4 广 播 地 址 或 某 个 多 播 地 址 执行 ping， 两 者 均 可 能 产生 
大 量 的 应 答 。 套 接 字 接 收 缓冲 区 设置 得 越 大 ， 它 发 生 溢出 的 可 能 性 也 就 越 小 。 

发 送 第 一 个 分 组 

18 调用 sTGALRM 信 号 处 理 函 数 发 送 第 一 个 分 组 。 该 函数 除 发 送 一 个 分 组 外 , 还 调度 下 一 个 

SIGALRM 信 号 在 1 秒 钟 之 后 产生 。 如 此 直接 调用 信号 处 理 函 数 并 不 常见 , 不 过 可 以 接受 。 
信和 号 处 理 函 数 也 是 C 函 数 ， 尽 管 它们 通常 是 异步 调用 的 。 
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SS ping/readloop.c 
1 #include "ping.h" 
2 void 
3 readloop(void) 
4{ 
5 int size; 
6 char recvbuf [BUFSIZE]; 
7 char controlbuf [BUFSIZE]; 
8 struct msghdr msg; 
9 struct iovec iov; 
10 ssize_t n; 
11 struct timeval tval; 
12 sockfd = Socket (pr->sasend->sa_family, SOCK_RAW, pr->icmpproto) ; 
13 setuid(getuid()); /* don't need special permissions any more */ 
14 if (pr->finit) 
15 (*pr->finit) (); 
16 size = 60 * 1024; /* OK if setsockopt fails */ 
17 setsockopt (sockfd, SOL SOCKET, SO RCVBUF, &size, sizeof(size)); 
18 sig alrm(SIGALRM); /* send first packet */ 
19 iov.iov base - recvbuf; 
20 iov.iov len = sizeof(recvbuf); 
21 msg.msg name - pr-»sarecv; 
22 msg.msg iov - &iov; 
23 msg.msg iovlen - 1; 
24 msg.msg control - controlbuf; 
25 for (; : ) { 
26 msg.msg namelen - pr-»salen; 
27 msg.msg controllen = sizeof (controlbuf) ; 
28 n = recvmsg(sockfd, &msg, 0); 
29 if (n < 0) { 
30 if (errno == EINTR} 
31 continue; 
32 else 
33 err sys("recvmsg error"); 
34 } 
35 ttimeofday (&tval, NULL); 
36 (*pr->fproc) (recvbuf, n, &msg, &tval); 
37 } 
38 } 
— — 一 -一 一 一 一 ping/readloop.c 
图 28-6 readloop 函 数 
为 recvmsg 设 置 msghar 结 构 


19-24 ”设置 将 传递 给 recvmsg 的 msghdr 结 构 及 iovec 结 构 中 的 恒定 成 员 。 
读 入 所 有 ICMP 消 息 的 无 限 循环 


25-37 ”本 程序 的 主 循环 是 一 个 无 限 循 环 ， 它 读 入 返回 到 原始 ICMP 套 接 字 的 每 个 分 组 。 我 们 调 
用 gettimeofday 记 录 分 组 收取 时 刻 ， 然 后 调用 合适 的 协议 函数 (proc_v4 或 proc_v6) 


处 理 包含 在 该 分 组 中 的 ICMP 消 息 。 


图 28-7 给 出 了 tv_sub 函 数 ， 它 把 两 个 timeval 结 构 中 存放 的 时 间 值 相 减 ， 并 把 结果 存 入 第 


一 个 timeval 结 构 中 。 
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lib/tv sub.c 
1 #include "unp.h" 
2 void 
3 tv sub(struct timeval *out, struct timeval *in) 
4í( 
5 if ( (out->tv_usec -= in-»tv usec) < 0) ( /* out -= in */ 
6 --out-»tv sec; 
7 out->tv_usec += 1000000; 
8 Q - 
9 Out-»tv sec -= in-»tv sec; 
10 ) 
lib/tv sub.c 


图 28-7 tv_sub 函 数 ; 两 个 timeval 结 构 相 减 


图 28-8 给 出 了 proc_v4 函 数 ， 它 处 理 所 有 接收 到 的 ICMPv4 消 息 。 其 中 涉及 的 IPv4 首 部 格式 
参见 图 A-1。 另 外 需 知道 ， 当 一 个 ICMPv4 消 息 由 进程 在 原始 套 接 字 上 收取 时 ， 内 核 已 经 证 实 它 
的 IPv4 首 部 和 ICMPv4 首 部 中 的 基本 字段 的 有 效 性 (TCPv2 第 214~311 页 )。 








—— —-ping/proc v4.c 
1 #include "ping.h" 
2 void 
3 proc v4(char *ptr, ssize t len, struct msghdr *msg, struct timeval *tvrecv) 
4{ 
5 int hleni, icmplen; 
6 double rtt; 
7 struct ip *ip; 
8 struct icmp *icmp; 
9 struct timeval *tvsend; 
10 ip = (struct ip *) ptr; /* start of IP header */ 
11 hleni = ip-»ip hl << 2; /* length of IP header */ 
12 if (ip-»ip p !- IPPROTO ICMP) 
13 return; /* not ICMP */ 
14 icmp = (struct icmp *) (ptr + hlen1);  /* start of ICMP header */ 
15 if ( (icmplen = len - hlenl) < 8) 
16 return; /* malformed packet */ 
17 if (icmp-»icmp type == ICMP ECHOREPLY) { 
18 if (icmp-»icmp id !- pid) 
19 return; /* not a response to our ECHO REQUEST */ 
20 if (icmplen « 16) 
21 return; /* not enough data to use */ 
22 tvsend - (struct timeval *) icmp-»icmp data; 
23 tv sub(tvrecv, tvsend); 
24 rtt - tvrecv-»tv sec * 1000.0 « tvrecv-»tv usec / 1000.0; 
25 printf ("%d bytes from %s: seq=%u, ttl-$d, rtt-$.3f ms\n", 
26 icmplen, Sock ntop host(pr-»sarecv, pr-»salen), 
27 icmp-»icmp seq, ip-»ip ttl, rtt); 
28 ) else if (verbose) ( 
29 printf(" %d bytes from %s: type = %d, code = %d\n", 
30 icmplen, Sock ntop host(pr-»sarecv, pr->salen), 
31 icmp-»icmp type, icmp-»icmp code); 
32 ) 
33 ) 

—ping/proc_v4.c 


图 28-8 proc_v4 函 数 : 处 理 所 接 收 的 ICMPv4 消 息 
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获取 ICMP 首 部 指针 

10-16 ”将 IPv4 首 部 长 度 字 段 乘 以 4 得 出 PPv4 首 部 以 字 节 为 单位 的 大 小 。(IPv4 首 部 可 能 含有 选 
项 。) 我 们 据 此 把 icmp 设 置 成 指向 ICMP 首 部 的 开始 位 置 ?。 我 们 确定 IP 协 议 是 ICMP， 
而 且 有 足够 的 回 射 数据 来 查看 包含 在 回 射 请 求 中 的 时 间 惟 。 图 28-9 标 示 了 本 段 代码 所 
用 的 各 个 首部 、 指 针 和 长 度 。 


len 


hlenl icmplen 
ma 
IPv4 首 部 IPv4 选 项 go v4 | ICMP 数 据 


4 20 字 节 0-40 4 8 
ip icmp 


图 28-9 处理 ICMPv4 应 答 涉及 的 首部 、 指 针 和 长 度 





检查 ICMP 回 射 应 答 
17-21 如果 所 处 理 的 消息 是 一 个 ICMP 回 射 应答 ， 那 么 我 们 必须 检查 标识 符 字段 ， 判 定 该 应 答 
是 否 响应 于 由 本 进程 发 出 的 请 求 。 如 果 本 主机 上 同时 运行 着 多 个 ping 进 程 ， 那 么 每 个 
进程 都 得 到 内 核 接收 到 的 所 有 ICMP 消 息 的 一 个 副本 。 
22-27 ”通过 从 当前 时 间 (由 函数 参数 tvrecv 指 向 ) 减 去 消息 发 送 时 间 (包含 在 ICMP 应 答 的 可 
选 数 据 部 分 中 )， 我 们 计算 出 RTT。 把 RTT 从 微 秒 数 转换 成 毫秒 数 之 后 ， 与 序列 号 字段 
以 及 接收 TTL 一 道 显 示 输 出 。 序 列 号 字段 使 得 用 户 能 够 查看 是 否 发 生 过 分 组 丢失 、 错 
序 或 重复 ， 接 收 TTL 则 给 出 两 个 彼此 通信 主机 之 间 步 跳 数 的 某 种 指示 。 
若 指定 -v 则 显示 所 有 接收 ICMP 消 息 
28-32 如果 用 户 指定 了 -v 详尽 输出 ) 命令 行 选项 ， 那 就 显示 除 回 射 应 答 外 的 所 有 接收 ICMP 
消息 的 类 型 字段 和 代码 字段 。 
ICMPv6 消 息 的 处 理由 proc_v6 函 数 完成 ， 如 图 28-12 所 示 。 它 类 似 于 proc_v4 函 数 ， 不 过 既 
然 IPv6 原 始 套 接 字 不 返回 IPv6 首 部 ， 它 就 以 辅助 数据 的 形式 接收 ICMPv6 分 组 的 跳 限 。 接 收 这 个 
辅助 数据 要 求 预先 为 所 用 的 原始 套 接 字 开启 相关 套 接 字 选 项 ， 这 是 由 图 28-10 给 出 的 init_v6 函 
数 完成 的 。 
设置 ICMPv6 接 收 过 滤器 
6~14 ”如 果 用 户 没 有 指定 -v 命 令 行 选项 ， 那 就 在 所 用 的 原始 ICMPv6 套 接 字 上 安装 一 个 过 滤 
器 , 阻止 除 回 射 应 答 外 的 所 有 ICMPv6 消 息 。 这么 做 可 以 缩减 该 套 接 字 上 收取 的 分 组 数 。 
请 求 TPV6_HOPLIMIT 辅 助 数据 
15~22 ”请 求 随 外 来 分 组 收取 跳 限 的 API 发 生 过 变动 , 不 过 新 旧 两 个 版 本 都 通过 开启 某 个 套 接 字 
选项 完成 。 我 们 首选 较 新 版 本 (IPV6_RECVHOPLIMIT), 但 如 果 没 有 定义 相应 常 值 就 可 
以 尝试 旧版 本 《IPV6_HOPLIMIT)。 我 们 不 检查 setsockopt 的 返回 值 ， 因 为 是 否 接收 
跳 限 无 关 紧 要 。 


O 本 书 的 新 作者 在 此 验证 IPv4 首 部 确实 是 ICMPv4， 以 防 内 核 错误 地 把 非 ICMP 分 组 递送 到 原始 ICMP 套 接 字 完 全 是 
多 此 一 举 。 一 一 译 者 注 
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proc_v6 函 数 〈 图 28-12) 处 理 外 来 分 组 。 





— — ———ping/init v6.c 


1 void 

2 init, v6() 

3 { 

4 #ifdef IPV6 

5 int on- 1; 

6 if (verbose -- 0) ( 

7 /* install a filter that only passes ICMP6, ECHO REPLY unless verbose */ 
8 struct icmp6, filter myfilt; 

9 ICMP6 FILTER SETBLOCKALL (&myfilt); 

10 ICMP6 FILTER SETPASS(ICMP6, ECHO REPLY, &myfilt); 

11 setsockopt(sockfd, IPPROTO IPV6, ICMP6 FILTER, &myfilt, 

12 sizeof (myfilt)); 

13 /* ignore error return; the filter is an optimization */ 

14 ) 

15 /* ignore error returned below; we just won't receive the hop limit */ 
16 #ifdef IPV6 RECVHOPLIMIT 

17 /* RFC 3542 */ 

18 setsockopt (sockfd, IPPROTO IPV6, IPV6 RECVHOPLIMIT, &on, sizeof(on)); 
19 #else 

20 /* RFC 2292 */ 

21 setsockopt (sockfd, IPPROTO IPV6, IPV6 HOPLIMIT, &on, sizeof(on)); 

22 #endif 

23 #endif 

24 } 





ping/init v6.c 
图 28-10 init_v6 函 数 : 初始 化 原始 ICMPv6 套 接 字 
获取 ICMPv6 首 部 的 指针 
11-13 从 原始 ICMPv6 套 接 字 接 收 的 仅仅 是 ICMPv6 首 部 。( 回 顾 一 下 ， 由 IPv6 原 始 套 接 字 上 的 
输入 操作 作为 普通 数据 返回 的 是 扣除 了 IPv6 首 部 和 所 有 扩展 首部 的 净 荷 ，IPv6 首 部 中 
的 字段 以 及 扩展 首部 只 能 作为 附加 数据 返回 )。 图 28-11 标 示 了 本 段 代 码 所 用 的 各 个 首 


部 、 指 针 和 长 度 。 
| len | 


"n 
icmp6 
图 28-11 处理 ICMPv4 应 答 涉及 的 首部 、 指 针 和 长 度 


检查 ICMP 回 射 应 答 
14-37 ”如 果 所 处 理 的 ICMP 消 息 是 一 个 回 射 应 答 ， 那 就 检查 标识 符 字 段 ,判定 它 是 不 是 给 本 进 
程 的 应 答 。 车 是 则 计算 RTT， 并 与 序列 号 和 IPv6 跳 限 一 道 显示 输出 。 其 中 跳 限 来 自 于 
750 IPV6_HOPLIMIT 辅 助 数据 对 象 。 
若 指 定 -v 则 显示 所 有 接收 ICMP 消 息 
38-41 ”如 果 用 户 指定 了 -v( 详 尽 输出 ) 命 令 行 选项 , 那 就 显示 除 回 射 应 答 外 所 有 接收 到 的 ICMP 
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消息 的 类 型 字段 和 代码 字段 。 
ping/proc v6.c 
1 #include "ping.h" 
2 void 
3 proc v6(char *ptr, ssize t len, struct msghdr *msg, struct timeval* tvrecv) 
4t 
5 #ifdef  IPV6 
6 double rtt; 
7 struct icmp6 hdr*icmp6; 
8 struct timeval *tvsend; 
9 struct cmsghdr *cmsg; 
10 int hlim; 
11 icmp6 = (struct icmp6_hdr *) ptr; 
12 if (len < 8) 
13 return; /* malformed packet */ 
14 if (icmp6-»-icmp6 type == ICMP6, ECHO REPLY) { 
15 if (icmp6-»icmp6 id != pid) 
16 return; /* not a response to our ECHO REQUEST */ 
17 if (len « 16) 
18 return; /* not enough data to use */ 
19 tvsend = (struct timeval *) (icmp6 + 1); 
20 tv sub(tvrecv, tvsend); 
21 rtt = tvrecv-»tv sec * 1000.0 + tvrecv-»tv usec / 1000.0; 
22 hlim = -1; 
23 for (cmsg - CMSG FIRSTHDR(msg); cmsg !- NULL; 
24 cmsg = CMSG NXTHDR(msg, cmsq)) { 
25 if (cmsg-»cmsg level == IPPROTO IPV6 
26 && cmsg-»cmsg type == IPV6, HOPLIMIT) ( 
27 hlim = *(u int32 t *)CMSG_DATA(cmsg) ; 
28 break; 
29 } 
30 } 
31 printf("$d bytes from $s: seq=%u, hlim=", 
32 len, Sock ntop host(pr-»sarecv, pr-»salen),icmp6-»icmp6 seq); 
33 if (hlim -- -1) 
34 printf("???"); /* ancillary data missing */ 
35 else 
36 printf("$d", hlim); 
37 printf(", rtt-$.3f ms\n", rtt); 
38 ) else if (verbose) ( 
39 printf(" %d bytes from $s: type = %d, code = %d\n", 
40 len, Sock_ntop_host (pr->sarecv, pr->salen), 
41 icmp6->icmp6_type, icmp6->icmp6_code) ; 
42 } 
43 #endif /* IPV6 */ 
44 ) 
ping/proc v6.c 





图 28-12 ”proc_v6 函 数 ， 处 理 所 接收 的 ICMPv6 消 息 


我 们 的 sSTGaALRM 信 号 处 理 函 数 是 sig_alrm 函 数 , 如 图 28-13 所 示 。 我 们 在 图 28-6 的 readloop 
函数 中 一 早 就 调用 过 该 函数 一 次 ， 从 而 发 送出 第 一 个 分 组 。 该 函数 仅仅 调用 协议 相关 的 函数 发 
送 一 个 ICMP 回 射 请 求 (send_v4 或 send_v6)， 然 后 调度 下 一 个 SITGALRM 在 1 秒 钟 之 后 产生 。 
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_ ”一 二 一 -” 





ping sig_alrm.c 
1 #include “ping.h" 


2 void 

3 sig_alrm(int signo) 
4{ 

5 (*pr->fsend) () 7 


6 alarm(1); 
7 return; 
8) 


ping/sig alrm.c 








图 28-13 ”sig_alrm 函 数 : SIGALRM 信 号 处 理 函 数 
图 28-14 给 出 的 send_v4 函 数 构造 一 个 ICMPv4 回 射 请 求 消息 并 把 它 写 出 到 原始 套 接 字 。 


—————ping/send v4.c 





1 #include *"ping.h* 


2 void 

3 send v4 (void) 

4 i 

5 int len; 

6 struct icmp *icmp; 

7 icmp - (struct icmp *) sendbuf; 

B icmp-»icmp type = ICMP ECHO; 

9 icmp-»icmp code - 0; 

10 icmp-»icmp id = pid; 

11 icmp-»icmp seq = nsent++; 

12 memset (icmp->icmp_data, 0xa5, datalen); /* fill with pattern */ 
13 Gettimeofday((struct timeval *) icmp->icmp_data, NULL); 

14 len = 8 + datalen; /* checksum ICMP header and data */ 
15 icmp->icmp_cksum = 0; 

16 icmp-»icmp cksum = in cksum((u short *) icmp, len); 

17 Sendto(sockfd, sendbuf, len, 0, pr->sasend, pr-»salen); 

18 } 





— 一 一 ping/send v4.c 
图 28-14 sena_v4 函 数 : 构造 并 发 送 一 个 ICMPv4 回 射 请 求 消息 


构造 ICMPv4 消 息 
7-13 ”构造 ICMPv4 消 息 ， 把 标识 符 字段 设置 为 本 进程 ID， 把 序列 号 字段 设置 为 全 局 变量 
nsent， 然 后 为 下 一 个 分 组 递增 nsent， 先 在 该 ICMP 消 息 的 数据 部 分 填充 以 值 为 0xa5 
的 模式 ， 再 在 这 个 数据 部 分 的 开始 处 存 入 当前 时 间 。 
计算 ICMP 校 验 和 
14-16 ”为 了 计算 ICMP 校 验 和 ， 我 们 先 把 校 验 和 字段 设置 为 0， 再 调用 in_cksum 函 数 ， 并 把 返 
回 值 存 入 校 验 和 字段 。ICMPv4 校 验 和 的 计算 涵盖 ICMPv4 首 部 及 后 跟 的 任何 数据 。 
发 送 数据 报 
17 ”通过 原始 套 接 字 发 送 刚 才 构 造 的 ICMP 消 息 。 既 然 我 们 没有 开启 IP_HDRINCL 套 接 字 选 
项 ， 内 核 将 为 我 们 构造 TPv4 首 部 并 把 它 安 置 在 我 们 的 缓冲 区 之 前 。 
网 际 网 校 验 和 是 被 校 验 的 各 个 16 位 值 的 二 进 制 反 码 和 Cones-complement sum)。 如 果 数 据 
长 度 为 奇数 个 字 节 ， 那 就 为 计算 校 验 和 而 在 数据 末尾 逻辑 地 添加 一 个 值 为 0 的 字 节 。 在 计算 校 验 


28.5 ping 程序 595 


和 之 前 ， 要 将 校 验 和 字段 置 0。 本 算法 适用 于 IPv4、ICMPv4、IGMPv4、ICMPv6、UDP 和 TCP 
等 首部 的 校 验 和 字段 。 关 于 网 际 网 校 验 和 的 额外 信息 及 若干 数值 例子 参见 RFC 1071 [Braden， 
Borman, and Partridge 1988]。TCPv2 的 8.7 节 更 为 详细 地 讨论 了 这 个 算法 ， 并 给 出 了 一 个 效率 更 
高 的 实现 。 图 28-15 给 出 的 ijn_cksum 函 数 用 于 计算 校 验 和 。 








libfree/in_cksum.c 





1 uinti6 t 
2 in cksum(uint16 t *addr, int len) 
3 { 
4 int nleft - len; 
5 uint32 t sum - 0; 
6 uintl6 t *w - addr; 
7 uintl6 t answer = 0; 
8 /* 
9 * Our algorithm is simple, using a 32 bit accumulator (sum), we add 
10 * sequential 16 bit words to it, and at the end, fold back all the 
11 * carry bits from the top 16 bits into the lower 16 bits. 
12 wp 
13 while (nleft > 1) { 
14 sum += *w++; 
15 nleft -= 2; 
16 } 
17 /* mop up an odd byte, if necessary */ 
18 if (nleft -- 1) ( 
19 *(unsigned char *)(&answer) - *(unsigned char *)w ; 
20 Sum «- answer; 
21 } 
22 /* add back carry outs from top 16 bits to low 16 bits */ 
23 sum = (sum >> 16) + (sum & Oxffff); /* add hi 16 to low 16 */ 
24 sum += (sum >> 16); /* add carry */ 
25 answer = ~sum; /* truncate to 16 bits */ 
26 return (answer) ; 
27 ) 
m mm — — — libfree/in cksum.c 
图 28-15 in_cksum 函 数 : 计算 网 际 网 校 验 和 
网 际 网 校 验 和 算法 


1-27 第 一 个 while 循 环 计 算 所 有 16 位 值 的 和 。 如 果 长 度 为 奇数 ， 那 就 把 最 后 一 个 字 节 也 加 入 
总 和 中 。 图 28-15 所 示 的 算法 是 一 个 简单 的 算法 ， 对 于 我 们 的 ping 程 序 确实 够 用 了 ， 然 
而 对 于 由 内 核 执行 的 大 数据 量 校 验 和 计算 却 显 然 不 够 用 , 因而 内 核 通常 都 有 特别 优化 过 
的 校 验 和 算法 。 


AHIR h dy Mike Muuss 编 写 的 ping 程 序 的 公开 域 (public domain ) 版 本 。 


我 们 的 ping 程 序 版 本 的 最 后 一 个 函数 是 如 图 28-16 所 示 的 send_v6， 它 构造 并 发 送 一 个 
ICMPv6 回 射 请 求 。 

send_v6 国 数 类 似 send_v4， 不 过 需 注意 它 并 不 计算 ICMPv6 校 验 和 。 正 如 我 们 在 本 章 早先 
所 提 ， 既 然 ICMPv6 校 验 和 的 计算 涉及 IPv6 首 部 中 的 源 地 址 ， 该 校 验 和 就 由 内 核 在 选取 源 地 址 之 
后 替 我 们 计算 并 设置 。 
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= —— —_—_—_——ping/send_v6.c 
1 #include "ping.h" 


2 void 

3 send v6() 

4 i 

5 #ifdef  IPV6 

6 int len; 

7 struct icmp6_hdr*icmp6; 

8 icmp6 = (struct icmp6 hdr *) sendbuf; 

9 icmp6-»icmp6 type = ICMP6, ECHO REQUEST; 

10 icmp6--icmp6, code = 0; 

1i icmp6-»icmp6 id = pid; 

12 icmp6-»icmp6 seq = nsent++; 

13 memset ((icmp6 + 1), O0xa5, datalen); /* fill with pattern */ 
14 Gettimeofday((struct timeval *) (icmp6 « 1), NULL); 

15 len = 8 + datalen; /* 8-byte ICMPv6 header */ 
16 Sendto(sockfd, sendbuf, len, 0, pr-»sasend, pr->salen); 
17 /* kernel calculates and stores checksum for us */ 
18 #endif /* IPV6 */ 

19 } 


ping send v6.c 
图 28-16 ”senaG_v6 函 数 ; 构造 并 发 送 一 个 ICMPv6 回 射 请 求 消息 





ee ——— 
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我 们 在 本 节 开 发 一 个 自己 的 traceroute 程 序 。 与 上 一 节 开 发 的 ping 程 序 一 样 ， 我 们 也 是 
开发 自己 的 版 本 , 而 不 是 给 出 公开 可 得 版 本 。 这么 做 的 理由 仍然 是 我 们 既 和 需要 一 个 同时 支持 IPv4 
和 IPv6 的 版 本 ， 又 不 希望 与 我 们 关于 网 络 编程 的 讨论 无 多 大 关系 的 众多 选项 分 散 了 注意 力 。 

traceroute 允 许 我 们 确定 IP 数 据 报 从 本 地 主机 游历 到 某 个 远程 主机 所 经 过 的 路 径 。 它 的 操 
作 比 较 简单 ，TCPv1 第 8 章 以 多 个 使 用 例子 详细 讲解 了 它 的 原理 和 用 途 。traceroute 使 用 IPv4 
的 TTL 字 段 或 IPv6 的 跳 限 字 段 以 及 两 种 ICMP 消 息 。 它 一 开始 向 目的 地 发 送 一 个 TTL CERES D 
为 1 的 UDP 数据 报 。 这 个 数据 报导 致 第 一 跳 路 由 器 返 送 一 个 ICMP“time exceeded in transmit” (4% 
输 中 超时 ) 错误 。 接 着 它 每 递增 TTL 一 次 发 送 一 个 UDP 数据 报 ， 从 而 逐步 确定 下 一 跳 路 由 器 。 
当 某 个 UDP 数据 报到 达 最 终 目 的 地 时 ， 目 标 是 由 这 个 主机 返 送 一 个 ICMP“port unreachable〈 端 
口 不 可 达 )” 错 误 。 这 个 目标 通过 向 一 个 随机 选取 的 (但 愿 ) 未 被 目的 主机 使 用 的 端口 发 送 UDP 

早期 版 本 的 traceroute 程 序 只 能 通过 设置 TP_HDRINCL 套 接 字 选项 直接 构造 自己 的 IPv4 首 
部 来 设置 TTL 字 段 。 然 而 如 今 的 系统 却 提供 IP_TTIL 套 接 字 选项 ， 它 允许 我 们 指定 外 出 数据 报 所 
用 的 TTL。( 这 个 套 接 字 选项 随 4.3BSD Reno 版 本 引入 。) 设置 这 个 套 接 字 选项 比 构造 完整 的 IPv4 
首部 容易 得 多 〈 尽 管 我 们 将 在 29.7 节 给 出 构造 IPv4 首 部 和 UDP 首部 的 方法 )。IPv6 的 TPV6_ 
UNICAST_HOPS 套 接 字 选 项 允许 我 们 控制 IPv6 数 据 报 的 跳 限 字段 。 

图 28-17 给 出 所 有 程序 文件 都 包含 的 trace.h 头 文件 。 

1-131 ”我 们 包含 定义 IPv4、ICMPv4 和 UDP 的 结构 和 常 值 的 标准 IPv4 头 文件 。rec 结 构 定 义 我 
们 发 送 的 UDP 数据 报 的 数据 部 分 ， 不 过 我 们 将 发 现 其 实 无 需 查看 这 些 数据 。 发 送 它们 
主要 是 为 了 调试 目的 。 
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-一 traceroute/trace.h 

1 #include "unp.h" 

2 #include «netinet/in systm.h» 

3 #incluGe «netinet/ip.h» 

4 #include «netinet/ip icmp.h» 

5 #include «netinet/udp.h» 

6 #define BUFSIZE 1500 

7 struct rec { /* format of outgoing UDP data */ 

8 u short rec seq; /* sequence number */ 

9 u short rec tti; /* TTL packet left with */ 

10 struct timeval rec tv; /* time packet left */ 

11); 

12 /* globals */ 

13 char recvbuf [BUFSIZE]; 

14 char sendbuf [BUFSIZE]; 

15 int datalen; /* # bytes of data following ICMP header */ 
16 char *host; 

17 u short sport, dport; 

18 int nsent; /* add 1 for each sendto() */ 

19 pid_t pid; /* our PID */ 

20 int probe, nprobes; 

21 int sendfd, recvfd; /* send on UDP sock, read on raw ICMP sock */ 
22 int ttl, max_ttl; 

23 int verbose; 

24 /* function prototypes */ 

25 const char  *icmpcode vá(int); 

26 const char  *icmpcode v6(int); 

27 int recv_v4(int, struct timeval *); 

28 int recv_v6(int, struct timeval *); 

29 void Sig alrm(int); 

30 void traceloop (void); 

31 void tv sub(struct timeval *, struct timeval *); 

32 struct proto { 

33 const char *(*icmpcode) (int); 

34 int (*recv)(int, struct timeval *); 

35 struct sockadór  *sasend; /* sockaddr{} for send, from getaddrinfo */ 
36 struct sockaddr  *sarecv; /* sockaddr{} for receiving */ 

37 struct sockaddr  *salast; /* last sockaddr() for receiving */ 

38 struct sockaddr  *sabind; /* sockaddr() for binding source port */ 
39 socklen t salen; /* length of sockaddr{}s */ 

40 int icmpproto; /* IPPROTO, xxx value for ICMP */ 

41 int ttllevel; /* setsockopt() level to set TTL */ 

42 int ttloptname; /* setsockopt() name to set TTL */ 

43 ) *pr; 
44 #ifdef IPV6 

45 #include «netinet/ip6.h» 

46 #include «netinet/icmp6.h» 

47 #endif 

-一 traceroute/trace.h 








图 28-17 trace nk X4 
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定义 proto 结 构 
32-43 ”与 上 一 节 的 ping 程 序 一 样 ， 我 们 通过 定义 一 个 proto 结 构 来 处 理 IPv4 和 IPv6 之 间 的 差 
异 ， 该 结构 含有 体现 这 两 个 了 版 本 之 间 差 异 之 所 在 的 函数 指针 、 套 接 字 地 址 结构 指针 
和 其 他 常 值 。 当 main 函 数 处 理 完 目的 地 址 之 后 〈 程 序 将 使 用 IPv4 还 是 IPv6 就 由 目的 地 
址 决定 )， 全 局 指针 变量 pr 将 被 按照 所 用 IP 版 本 设置 为 指向 某 个 为 IPv4 或 IPv6 初 始 化 过 
的 proto 结 构 。 
包括 IPv6 头 文件 
44-47 ”我们 包含 定义 IPv6 和 ICMPv6 结 构 和 常 值 的 头 文件 。 
图 28-18 给 出 main 函 数 , 它 处 理 命令 行 参 数 , 为 IPv4 或 IPv6 初 始 化 pr 指针 , 并 调用 traceloop 


原始 套 接 字 








函数 。 
traceroute/main.c 
1 include "trace.h" 
2 struct protoproto v4 = ( icmpcode v4, recv v4, NULL, NULL, NULL, NULL, 0, 
3 IPPROTO ICMP, IPPROTO IP, IP TTL 
4); 
5 #ifdef  IPV6 
6 struct protoproto v6 - ( icmpcode v6, recv v6, NULL, NULL, NULL, NULL, 0, 
7 IPPROTO ICMPV6, IPPROTO_IPV6, IPV6, UNICAST HOPS 
8); 
9 #endif 
10 int datalen = sizeof(struct rec); /* defaults */ 
11 int max ttl - 30; 
12 int nprobes - 3; 
13 u short dport = 32768 + 666; 
14 int 
15 main(int argc, char **argv) 
16 { 
17 int C; 
18 struct addrinfo *ai; 
19 char *h; 
20 opterr - 0; /* don't want getopt() writing to stderr */ 
21 while ( (c = getopt(argc, argv, "m:v")) !- -1) { 
22 switch (c) ( 
23 case 'm': 
24 if ( (max ttl - atoi(optarg)) «- 1) 
25 err quit("invalid -m value"); 
26 break; 
27 case 'v': 
28 verbose++; 
29 break; 
30 case '?': 
31 err_quit ("unrecognized option: $c", c); 
32 } 
33 ) 
34 if (optind !- argc-1) 
35 err quit("usage: traceroute [ -m <maxttl> -v ] «hostname»"); 
36 host - argv[optind]; 
37 pid = getpid(); 





图 28-18 traceroute 程 序 的 main 函 数 
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38 Signal(SIGALRM, sig alrm); 
39 ai = Host serv(host, NULL, 0, 0); 
40 h = Sock ntop host(ai-»ai addr, ai-»ai, addrlen); 
41 printf ("traceroute to $s (%s): %d hops max, %d data bytes\n", 
42 ai->ai_canonname ? ai->ai_canonname : h, h, max_ttl, datalen); 
43 /* initialize according to protocol */ 
44 if (ai->ai_family == AF_INET) { 
45 pr = &proto_v4; 
46 #ifdef IPV6 
47 ) else if (ai-»ai family -- AF INET6) { 
48 pr = &proto, v6; 
49 if (IN6 IS ADDR V4MAPPED 
50 (&(((struct sockaddr in6 *)ai-»ai, addr)-»sin6 addr))) 
51 err_quit ("cannot traceroute IPv4-mapped IPv6 address"); 
52 fendif 
53 ) else 
54 err_quit ("unknown address family $d", ai-»ai family); 
55 pr-»sasend - ai-»ai addr; /* contains destination address */ 
56 pr-»sarecv = Calloc(1, ai-»ai addrlen); 
57 pr->salast = Calloc(1, ai-»ai, addrlen); 
58 pr-»sabind - Calloc(1, ai-»ai addrlen); 
59 pr-»salen = ai->ai_addrlen; 
60 traceloop(); 
61 exit(0); 
62 ) 
traceroute/main.c 
图 28-18 | (585 
定义 proto 结 构 
2-9 为 IPv4 和 IPv6 分 别 定义 一 个 proto 结 构 ， 不 过 直到 本 函数 末尾 才 分 配 指向 套 接 字 地 址 结 
构 的 指针 。 
设置 默认 值 


10-13 ”本 程序 使 用 的 最 大 TTL 或 跳 限 默认 为 30， 不 过 用 户 可 以 使 用 -m 命 令 行 选项 修改 该 值 。 
对 于 每 个 TTL 值 ， 我 们 发 送 3 个 控 测 分 组 ， 不 过 用 户 同样 可 以 使 用 某 个 命令 行 选项 修 
改 该 值 。 目 的 端口 的 初始 值 为 32768+666， 以 后 每 发 送 一 个 UDP 数 据 报 其 值 就 递增 1。 
我 们 但 愿 数据 报 最 终 到 达 目 的 地 时 ， 目 的 主机 上 未 在 使 用 这 些 端 口 ， 不 过 无 法 保证 。 
处 理 命令 行 参数 
19-37 ”-v 命 令 行 选项 致使 显示 大 多 数 接收 ICMP 消 息 。 
处 理 主机 名 或 IP 地 址 参数 并 结束 初始 化 
38-58 ”调用 我 们 的 host_serv 函 数 处 理 目的 主机 名 或 IP 地 址 ， 它 返回 指向 某 个 aGdrinfo 结 构 
的 一 个 指针 。 根 据 返 回 地 址 的 类 型 (IPv4 或 IPv6)， 完 成 所 用 proto 结 构 的 初始 化 ， 把 
指向 该 结构 的 指针 存 入 全 局 变量 pr， 并 分 配 若 干 个 大 小 合适 的 套 接 字 地 址 结构 。 
59 ”调用 图 28-19 中 给 出 的 traceloop 函 数 发 送 UDP 数 据 报 并 读 取 返 送 的 ICMP 出 错 消 息 。 该 
函数 是 本 程序 的 主 循环 。 
我 们 接着 查看 由 图 28-19 给 出 的 traceroute 函 数 。 
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traceroute/traceloop.c 
1 #include "trace.h" 
2 void 
3 traceloop(void) 
4t 
5 int seq, code, done; 
6 double rtt; g 
7 struct rec *rec; 
8 struct timeval tvrecv; 
9 recvfd = Socket (pr->sasend-»sa_ramily, SOCK RAW, pr->icmpproto) ; 
10 setuid(getuid()); /* don't need special permissions anymore */ 
11 #ifdef  IPV6 
12 if (pr-»sasend-»sa family -- AF INET6 && verbose -- 0) ( 
13 Struct icmp6 filter myfilt; 
14 ICMP6 FILTER SETBLOCKALL (&my filt); 
i5 ICMP6, FILTER SETPASS(ICMP6 TIME EXCEEDED, &myfilt); 
16 ICMP6, FILTER SETPASS(ICMP6 DST UNREACH, &myfilt); 
17 setsockopt (recvfd, IPPROTO IPV6, ICMP6 FILTER, 
18 émyfilt, sizeof(myfilt)); 
19 } 
20 #endif 
21 sendfd = Socket (pr->sasend->sa_family, SOCK DGRAM, 0); 
22 pr->sabind->sa_family = pr->sasend->sa_family; 
23 sport = (getpid() & Oxffff) | 0x8000;  /* our source UDP port # */ 
24 sock set port(pr-»sabind, pr-»salen, htons(sport)); 
25 Bind(sendfd, pr->sabind, pr->salen); 
26 sig_alrm(SIGALRM) ; 
27 seq = 0; 
28 done = 0; 
29 for (ttl = 1; ttl <= max ttl && done == 0; ttl++) ( 
30 Setsockopt (sendfd, pr->ttllevel, pr->ttloptname, &ttl, sizeof (int)); 
31 bzero(pr->salast, pr-»salen); 
32 printf("$2d ", ttl); 
33 fflush (stdout); 
34 for (probe = 0; probe « nprobes; probe++) ( 
35 rec - (struct rec *) sendbuf; 
36 rec-»rec seq = ++seq; 
37 rec-»rec ttl - ttl; 
38 Gettimeofday(&rec-»rec tv, NULL); 
39 Sock set port(pr-»sasend, pr-»salen, htons(dport + seg)); 
40 Sendto(sendfd, sendbuf, datalen, 0, pr-»sasend, pr-»salen); 
41 if ( (code = (*pr-»recv)(seq, &tvrecv)) == -3) 
42 printf(" *"); /* timeout, no reply */ 
43 else ( 
44 char Str[NI MAXHOST|; 
45 if (sock cmp addr(pr-»sarecv, pr->salast, pr-»salen) != 0) { 
46 if (getnameinfo(pr-»sarecv, pr-»salen, str, sizeof(str), 
47 NULL, 0, 0) == 0) 
48 printf(" $s ($s)", str, 
49 Sock ntop host(pr-»sarecv, pr-»salen)); 


图 28-19 ”traceloop 函 数 ， 主 处 理 循 环 
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50 else 
51 printf(" $s",Sock ntop host(pr-»sarecv, pr-»salen)); 
52 memcpy (pr->salast, pr-»sarecv, pr-»salen); 
53 ) 
54 tv sub(&tvrecv, &rec-»rec tv); 
55 rtt - tvrecv.tv sec * 1000.0 « tvrecv.tv usec / 1000.0; 
56 printf(" $*.3f ms", rtt); 
57 if (code == -1) /* port unreachable; at destination */ 
58 done++; 
59 else if (code >= 0) 
60 printf(" (ICMP $s)", (*pr->icmpcode) (code) ); 
61 } 
62 fflush (stdout) ; 
63 ) 
64 printf(*Mn"); 
65 ) 
66 ) 
- - —traceroute/traceloop.c 
图 28-19 (4) 
创建 两 个 套 接 字 


9-10 ”我 们 需要 两 个 套 接 字 : 从 中 读 入 所 有 返 送 ICMP 消 息 的 一 个 原始 套 接 字 和 往 中 以 不 断 递 
增 的 TTL 写 出 探测 分 组 的 一 个 UDP 套 接 字 。 原 始 套 接 字 创建 完毕 之 后 ， 我 们 把 本 进程 
的 有 效用 户 ID 重 置 为 实际 用 户 ID， 因 为 我 们 不 再 需要 超级 用 户 权 限 。 
设置 ICMPv6 接 收 过 滤器 
11-21 如果 这 是 一 个 IPv6 原 始 套 接 字 ， 而 且 用 户 没 有 指定 -v 命 令 行 选项 ， 那 就 在 这 个 原始 套 
接 字 上 安装 一 个 过 滤器 ， 阻 止 除 “time exceeded” 和 “destination unreachable” 这 两 类 
ICMPv6 出 错 消 息 外 的 所 有 ICMPv6 消 息 。 这 么 做 可 以 缩减 该 套 接 字 上 收取 的 分 组 数 。 
给 UDP 套 接 字 捆 绑 源 端口 
21-25 ”调用 bina 在 UDP 套 接 字 上 捆绑 一 个 用 于 发 送 的 源 端 口 ， 所 用 值 为 本 进程 ID 的 低 序 16 位 ， 
不 过 高 序 位 总 是 置 为 1。 既 然 本 程序 可 能 有 多 个 副本 同时 运行 在 本 地 主机 上 ， 我 们 有 必 
要 区 分 一 个 接收 ICMP 消 息 是 出 于 响应 本 进程 发 送 的 数据 报 产生 的 还 是 出 于 响应 其 他 
traceroute 进 程 发 送 的 数据 报 产生 的 。 我 们 为 此 使 用 UDP 首部 的 源 端 口 字 段 标识 发 送 
进程 ， 因 为 返 送 的 ICMP 出 错 消息 必须 包含 引发 该 ICMP 错 误 的 那个 UDP 数据 报 的 首部 。 
建立 SIGALRM 的 信号 处 理 函 数 
26 ”为 SIGALRM 信 号 建立 信号 处 理 函 数 (sig_alrm)， 因 为 每 发 送 一 个 探测 分 组 之 后 , 我 们 
为 接收 ICMP 消 息 等 待 3 秒 钟 ， 然 后 才 发 送 下 一 个 探测 分 组 。 
主 循环 : 设置 TTL 或 跳 限 并 发 送 3 个 探测 分 组 
27-38 ”本 函数 的 主 循环 是 峙 套 的 两 个 for 循 环 。 外 层 循环 从 TTL 或 跳 限 为 1 开始 ， 每 循环 一 次 
加 1， 内 层 循 环 则 为 每 个 TTL 或 跳 限 值 向 目的 地 发 送 3 个 探测 分 组 (UDP 数据 报 )。 每 当 
TTL 或 跳 限 值 发 生变 化 时 ， 我 们 就 使 用 套 接 字 选 项 ITP_TTIL 或 ITPV6_UNICAST_HOPSs 为 外 
出 探测 分 组 设置 新 值 。 
外 层 循环 每 一 轮 开 始 时 ， 我 们 把 由 salast 成 员 指 向 的 套 接 字 地 址 结构 初始 化 成 0。 每 
当 读 入 一 个 ICMP 消 息 时 ， 该 结构 将 与 由 recvfrom 返 回 的 套 接 字 地 址 结构 作 比 较 ， 如 
. 果 两 者 不 一 致 ， 那 就 把 后 者 复制 到 前 者 ， 并 显示 取 自 后 者 的 IP 地 址 。 使 用 这 个 技巧 可 
以 做 到 : 对 每 个 TTL 都 显示 响应 第 一 个 探测 分 组 的 人 P 地 址 , 要 是 对 于 某 个 给 定 TTL 值 这 
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个 IP 地 址 发 生变 化 〈 璧 如 说 就 在 我 们 运行 本 程序 期 间 某 个 路 径 出 现 变 动 )， 那 么 新 的 下 
地 址 也 被 显示 。 

设置 目的 端口 并 发 送 UDP 数 据 报 

39-40 ”在 发 送 每 个 探测 分 组 之 前 ， 调 用 我 们 的 soct_set_port 函 数 修改 sasend 成 员 指向 的 套 
接 字 地 址 结构 中 的 目的 端口 。 为 每 个 探测 分 组 更 改 目的 端口 的 理由 是 : 当 这 些 探测 分 
组 到 达 最 终 目 的 地 时 ， 所 有 3 个 探测 分 组 被 发 送 到 不 同 的 端口 ， 我 们 但 愿 其 中 至 少 有 一 
个 未 在 使 用 中 。 探 测 分 组 《UDP 数据 报 ) 调用 sendato 发 送 。 

读 入 ICMP 消 息 

41-42 ”通过 使 用 recv_v4 和 recv_v6 这 两 个 函数 之 一 调用 recvfrom 读 入 并 处 理 返 送 的 ICMP 消 
息 。 这 两 个 函数 在 发 生 超时 时 返回 -3 (如果 尚未 为 当前 TTL 值 发 送 3 个 探测 分 组 ， 那 么 
该 返回 值 是 在 告知 我 们 要 发 送 另 一 个 探测 分 组 )， 在 收 到 一 个 ICMP“time exceeded in 
transit” 错 误 时 返回 -2， 在 收 到 一 个 ICMP “port unreachable” 错 误 时 返回 -1 (意味 着 
探测 分 组 已 经 到 达 最 终 目 的 地 )， 在 收 到 某 个 其 他 代码 的 ICMP 目 的 地 不 可 达 错 误 时 返 
回 某 个 非 负 的 ICMP 代 码 值 。 

显示 应 答 

43-63 ”如 前 所 提 ， 如 果 所 读 入 的 ICMP 消 息 是 某 个 给 定 TTL 值 的 第 一 个 应 答 ， 或 者 就 当前 TTL 
值 而 言 发 送 应 答 〈ICMP 消 息 ) 的 节点 他 地 址 发 生 了 变化 ， 我 们 就 显示 应 答 发 送 主机 的 
主机 名 和 IP 地 址 (车 getnameinfo 不 返回 主机 名 则 只 显示 下 地 址 )。 作 为 探测 分 组 发 送 
时 刻 和 相应 应 答 (ICMP 消 息 〉 收 取 时 刻 的 时 间 差 计算 并 显示 RTT。 


图 28-20 给 出 recv_v4 函 数 。 
traceroute/recv v4.c 
1 #include "trace.h" 


2 extern int gotalarm; 


3. kn 

4 * Return: -3 on timeout 

5 * -2 on ICMP time exceeded in transit (caller keeps going) 
6 * -1 on ICMP port unreachable (caller is done) 

7 * >= 0 return value is some other ICMP unreachable code 
8 */ 

9 int 

10 recv v4(int seq, struct timeval *tv) 

11.4 

12 int hlenl, hlen2, icmplen, ret; 

13 Socklen t len; 

14 ssize t n; 

15 struct ip *ip, *hip; 

16 struct icmp *icmp; 

17 struct udphdr *udp; 

18 gotalarm - 0; 

19 alarm(3); 

20 for (; ; 0) t 

21 if (gotalarm) 

22 return(-3); /* alarm expired */ 

23 len - pr-»salen; 

24 n = recvfrom(recvfd, recvbuf, sizeof(recvbuf), 0, pr-»sarecv, &len); 
25 if (n < 0) ( 


图 28-20 recv_v4 函 数 : 读 入 并 处 理 ICMPv4 消 息 
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if (errno == EINTR) 
continue; 
else 
err sys("recvfrom error"); 
} 


ip = (struct ip *) recvbuf; /* start of IP header */ 
hleni = ip->ip_hl << 2; /* length of IP header */ 


icmp = (struct icmp *) (recvbuf + hlenl); /* start of ICMP header */ 
if ( (icmplen = n - hlenl) < 8) 
continue; /* not enough to look at ICMP header */ 


if (icmp-»icmp type == ICMP_TIMXCEED && 
icmp-»icmp code == ICMP TIMXCEED INTRANS) ( 
if (icmplen < 8 + sizeof(struct ip)) 
continue; /* not enough data to look at inner IP */ 


hip = (struct ip *) (recvbuf + hlenl + 8); 
hlen2 - hip-»ip hl «« 2; 
if (icmplen < 8 + hlen2 + 4) 
continue; /* not enough data to look at UDP ports */ 


udp = (struct udphdr *) (recvbuf + hlenl + 8 + hlen2); 
if (hip-»ip p -- IPPROTO UDP && 
udp-»uh sport == htons (sport) && 
udp->uh_dport == htons(dport + seq)) { 
ret = -2; /* we hit an intermediate router */ 
break; 
} 


} else if (icmp->icmp_type == ICMP_UNREACH) { 
if (icmplen < 8 + sizeof(struct ip)) 
cont inue; /* not enough data to look at inner IP */ 


hip = (struct ip *) (recvbuf + hlenl + 8); 
hlen2 = hip->ip_hl << 2; 
if (icmplen < 8 + hlen2 + 4) 
continue; /* not enough data to look at UDP ports */ 


udp = (struct udphdr *) (recvbuf + hlenl + 8 + hlen2); 
if (hip->ip_p == IPPROTO UDP && 

udp-»uh, sport == htons(sport) && 

udp-»uh dport -- htons(dport « seq)) ( 

if (icmp-»icmp code == ICMP UNREACH PORT) 


ret - -1; /* have reached destination */ 
eise 

ret = icmp-»icmp code; /* 0, 1, 2, ... */ 
break; 


) 
) 
if (verbose) ( 
printf(" (from $s: type = %d, code = %d)\n", 
Sock_ntop_host (pr->sarecv, pr->salen), 
icmp->icmp_type, icmp->icmp_code) ; 
} 
/* Some other ICMP error, recvfrom() again */ 
} 
alarm(0); /* don't leave alarm running */ 
Gettimeofday (tv, NULL); /* get time of packet arrival */ 
return (ret); 
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设置 报警 时 钟 并 读 入 每 个 ICMP 消 息 
19~30 设置 一 个 3 秒 钟 的 报警 时 钟 后 进入 一 个 调用 recvfrom 的 循环 ， 以 读 入 返 送 到 原始 套 接 字 
的 所 有 ICMPv4 消 息 。 


本 函数 使 用 一 个 全 局 标志 在 相当 程度 上 避免 了 我 们 在 20.5 节 讲解 过 的 竞争 状态 。 


获取 ICMP 首 部 指针 

31-35 ip 指向 IPv4 首 部 的 开始 位 置 ( 回 顾 一 下 , 在 原始 套 接 字 上 的 读 入 操作 总 是 返回 IP 首 部 )， 
icmp 则 指向 ICMP 首 部 的 开始 位 置 。 图 28-21 标 示 了 本 段 代码 所 用 的 各 个 首部 、 指 针 和 
KH. 





icmplen 


hlenl | hlen2 


IPv4 首 部 | IPv4 选 项 Ec | IPv4 首 部 | IPv4 选 项 [vorra] 
à 20 字 节 0~40 4 8 4 20 0 一 40 4 8 
ip icmp hip udp 
H 产生 ICMP 错 误 的 IPv4 数 据 报 








图 28-21 处理 ICMPv4 错 误 涉及 的 首部 、 指 针 和 长 度 


处 理 ICMP 传 输 中 超时 错误 

36-50 ”如 果 所 读 入 的 ICMP 消 息 是 一 个 “time exceeded in transmit” 出 错 消息 ， 那 么 它 可 能 是 
响应 本 进程 某 个 探测 分 组 的 应 答 。hip 指 向 在 这 个 ICMP 消 息 中 返回 的 IPv4 首 部 ， 它 跟 
在 8 字 节 的 ICMP 首 部 之 后 。uap 指 向 跟 在 这 个 IPv4 首 部 之 后 的 UDP 首部 。 如 果 该 ICMP 
消息 是 由 某 个 UDP 数据 报 引起 的 ， 而 且 这 个 UDP 数据 报 的 源 端 口 和 目的 端口 确实 是 本 
进程 发 送 的 值 ， 那 么 它 是 来 自 某 个 中 间 路 由 器 的 响应 我 们 的 探测 分 组 的 一 个 应 答 。 

处 理 ICMP 端 只 不 可 达 错 误 

51-68 ”如 果 所 读 入 的 ICMP 消 息 是 一 个 “destination unreachable” 出 错 消息 ， 我 们 就 查看 在 这 
个 ICMP 消 息 中 返回 的 UDP 首部 ， 判 定 它 是 不 是 响应 本 进程 某 个 探测 分 组 的 应 答 。 在 这 
个 ICMP 消 息 确实 是 响应 本 进程 某 个 探测 分 组 的 应 答 这 一 前 提 下 ， 如 果 它 的 ICMP 代 码 
为 “port unreachable”， 那 就 返回 -1， 因 为 其 探测 分 组 已 经 到 达 最 终 目 的 地 ， 否 则 就 返 
回 它 的 ICMP 代 码 值 。 后 者 的 常见 例子 之 一 是 由 某 个 防火 墙 为 我 们 探测 的 目的 主机 返回 
一 个 其 他 不 可 达 代码 。 

处 理 其 他 ICMP 消 息 

69-73 ”如 果 用 户 指定 了 -v 命 令 行 选项 ， 那 就 显示 所 有 其 他 ICMP 消 息 。 

下 一 个 函数 recv_v6 由 图 28-24 给 出 ， 它 是 刚才 讲解 的 函数 的 IPv6 等 价 函 数 。 它 与 recv_v4 
几 近 相同 ， 不 过 使 用 不 同 的 常 值 名 和 结构 成 员 名 。 此 外 ， 从 IPv6 原 始 套 接 字 收取 的 数据 不 包括 
IPv6 首 部 和 任何 扩展 首部 ， 对 于 我 们 的 原始 ICMPv6 套 接 字 而 言 ， 所 收取 的 数据 一 开始 就 是 
ICMPv6 首 部 。 图 28-22 标 示 了 本 段 代 码 所 用 的 各 个 首部 、 指 针 和 长 度 。 
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icmp6len 
| hlen2 | 
bs à 40 4 8 
icmp6 hip6 udp 
| om 产生 ICMP 错 误 的 IPv6 数 据 报 


图 28-22 ”处 理 ICMPv6 错 误 涉 及 的 首部 、 指 针 和 长 度 


我 们 额外 定义 了 两 个 函数 icmpcode_v4 和 icmpcode_v6， 它 们 可 以 从 traceloop 函 数 末尾 
作为 printf 的 参数 调用 ， 以 显示 与 ICMP 目 的 地 不 可 达 类 型 错误 某 个 具体 代码 对 应 的 描述 串 。 
图 28-25 给 出 了 其 中 的 IPv6 函 数 。IPv4 函 数 与 之 类 似 ， 不 过 稍 长 些 ， 因 为 ICMPv4 目 的 地 不 可 达 类 
型 错误 有 更 多 的 代码 (图 A-15)。 

我 们 的 traceroute 程 序 的 最 后 一 个 函数 是 sSIGALRM 信 号 的 处 理 函 数 ， 即 由 图 28-23 给 出 的 
sig_alrm 函 数 。 该 函数 所 做 的 仅仅 是 返回 ， 使 recv_v4 或 recv_v6 中 已 阻塞 的 recvfrom 调 用 被 
中 断 ， 从 而 返回 EINTR 错 误 。 





a _—_—_§__ traceroute/sig_alrm.c 


1 #include "trace.h" 

2 int gotalarm; 

3 void 

4 sig_alrm(int signo) 

5 { 

6 gotalarm = 1; /* set flag to note that alarm occurred */ 
7 return; /* and interrupt the recvfrom() */ 

8 } 


traceroute/sig alrm.c 
图 28-23 sig_alrm 函 数 


—————————— traceroute/recv v6.c 
1 #include "trace.h" 





extern int gotalarm; 


2 
3 /* 

4 * Return: -3 on timeout 

5 * -2 on ICMP time exceeded in transit (caller keeps going) 
6. -* -1 on ICMP port unreachable (caller is done) 

7 >= 0 return value is some other ICMP unreachable code 

8 


9 int 

10 recv v6(int seg, struct timeval *tv) 
1L 

12 #ifdef  IPV6 

13 int hlen2, icmp6len, ret; 

14 ssize t n; 

15 socklen_t len; 

16 struct ip6 hdr *hip6; 

17 struct icmp6_hdr *icmp6; 

18 struct udphdr *udp; 





图 28-24 recv_v6 函 数 : 读 入 并 处 理 ICMPv6 消 息 
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19 gotalarm = 0; 

20 alarm(3); 

21 for (33) { 

22 if (gotalarm) 

23 return (-3); /* alarm expired */ 

24 len = pr->salen; 

25 n = recvfrom(recvfd, recvbuf, sizeof(recvbuf), 0, pr->sarecv, &len); 
26 if (n< 0) ( | 

27 if (errno == EINTR) 

28 continue; 

29 else 

30 err, sys("recvfrom error"); 

31 ) 

32 icmp6 - (struct icmp6 hdr *) recvbuf; /* ICMP header */ 
33 if ( ( icmp6len - n ) « 8) 

34 continue; /* not enough to look at ICMP header */ 
35 if (icmp6-»icmp6 type == ICMP6 TIME EXCEEDED && 

36 icmp6-»icmp6 code == ICMP6, TIME EXCEED TRANSIT) { 

37 if (icmp6len < 8 + sizeof(struct ip6 hdr) + 4) 

38 continue; /* not enough data to look at inner header */ 
39 hip6 = (struct ip6 hdr *) (recvbuf + 8); 

40 hlen2 - sizeof(struct ip6 hdr); 

41 udp = (struct udphdr *) (recvbuf + 8 + hlen2); 

42 if (hip6->ip6 == IPPROTO UDP && 

43 udp-»uh sport -- htons(sport) && 

44 udp-»uh dport -- htons(dport + seq)) 

45 ret - -2; /* we hit an intermediate router */ 
46 break; 

47 ) else if (icmp6--icmp6 type == ICMP6, DST UNREACH) { 

48 if (icmp6len < 8 + sizeof(struct ip6 hdr) + 4) 

49 continue; /* not enough data to look at inner header */ 
50 hip6 = (struct ip6 hdr *) (recvbuf + 8); 

51 hlen2 - sizeof(struct ip6 hdr); 

52 udp = (struct udphdr *) (recvbuf + 8 + hlen2); 

53 if (hip6-»ip6 nxt == IPPROTO UDP && 

54 udp-»uh sport == htons (sport) && 

55 udp-»uh dport -- htons(dport + seq)) ( 

56 if (icmp6-»icmp6, code == ICMP6 DST UNREACH NOPORT) 
57 ret - -1; /* have reached destination */ 

58 else 

59 ret = icmp6->icmp6_code; /* 0, 1, 2, ... */ 
60 break; 

61 ) 

62 ) else if (verbose) ( 

63 printf(" (from %s: type = %d, code = $%d)\n", 

64 Sock ntop host(pr-»sarecv, pr-»salen), 

65 icmp6-»icmp6 type, icmp6-»icmp6 code); 

66 ) 

67 /* Some other ICMP error, recvfrom() again */ 

68 ) 

69 alarm(0); /* don't leave alarm running */ 
70 Gettimeofday (tv, NULL); /* get time of packet arrival */ 
71 return(ret); 

72 #tendif 

73 ) 





traceroute/recv v6.c 
图 28-24 (4D 
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traceroute/icmpcode v6.c 
1 #include *"trace.h" 


2 const char * 

3 icmpcode v6(int code) 
4t 

5 #ifdef  IPV6 


6 static char errbuf[100]; 
7 switch (code) ( 
8 case  ICMP6, DST. UNREACH, NOROUTE: 
9 return("no route to host"); 
10 case  ICMP6, DST UNREACH, ADMIN: 
11 return("administratively prohibited"); 
12 case  ICMP6 DST UNREACH NOTNEIGHBOR: 
13 return("not a neighbor"); 
14 case  ICMP6 DST UNREACH ADDR: 
15 return(*address unreachable"); 
16 case ICMP6 DST UNREACH NOPORT: 
17 return("port unreachable"); 
18 default: 
19 sprintf(errbuf, "[unknown code %d]", code); 
20 return errbuf; 
21 } 
22 #endif 
23 ) 
traceroute/icmpcode v6.c 
图 28-25 ”返回 对 应 于 某 个 ICMPv6 不 可 达 代码 的 描述 串 767 


例子 
我 们 先 给 出 使 用 [Pv4 的 例子 ， 其 中 对 过 长 的 输出 行 做 了 折 行 处 理 。 


freebsd % traceroute www.unpbook.com 
traceroute to www.unpbook.com (206.168.112.219): 30 hops max, 24 data bytes 
1 12.106.32.1 (12.106.32.1) 0.799 ms 0.719 ms 0.540 ms 
12.124.47.113 (12.124.47.113) 1.758 ms 1.760 ms 1.839 ms 
gbr2-p27.sffca.ip.att.net (12.123.195.38) 2.744 ms 2.575 ms 2.648 ms 
tbr2-p012701.sffca.ip.att.net (12.122.11.85) 3.770 ms 3.689 ms 3.848 ms 
gbr3-p50.dvmco.ip.att.net (12.122.2.66) 26.202 ms 26.242 ms 26.102 ms 
gbr2-p20.dvmco.ip.att.net (12.122.5.26) 26.255 ms 26.194 ms 26.470 ms 
gar2-p370.dvmco.ip.att.net (12.123.36.141) 26.443 ms 26.310 ms 26.427 ms 
att-46.den.internap.ip.att.net (12.124.158.58) 26.962 ms 27.130 ms 
27.279 ms 
border10.ge3-0-bbnet2.den.pnap.net (216.52.40.79) 27.285 ms 27.293 ms 
26.860 ms 
10 coop-2.borderl0.den.pnap.net (216.52.42.118) 28.721 ms 28.991 ms 
30.077 ms 


o dou PWD 


w 


11 199.45.130.33 (199.45.130.33) 29.095 ms 29.055 ms 29.378 ms 

12 border-to-141-netrack.boulder.co.coop.net (207.174.144.178) 30.875 ms 
29.747 ms 30.142 ms 

13 linux.unpbook.com (206.168.112.219) 31.713 ms 31.573 ms 33.952 ms 


接着 给 出 使 用 IPv6 的 例子 ， 对 其 中 过 长 的 输出 行 也 做 了 折 行 处 理 。 


freebsd % traceroute www.kame.net 
traceroute to orange.kame.net (2001:200:0:4819:203:47££:£ea5:3085) : 
30 hops max, 24 data bytes 
1 3ffe:b80:3:9ad1::1 (3ffe:b80:3:9ad1::1) 107.437 ms 99.341 ms 103.477 ms 
2 Viagenie gw.int.ipv6.ascc.net (2001:288:3b0::55) 
105.129 ms 89.418 ms 90.016 ms 


608 $28* 原始 套 接 字 


3 gw-Viagenie.int.ipv6.ascc.net (2001:288:3D0::54) 
302.300 ms 291.580 ms 289.839 ms 

4 cT7513-gw.int.ipv6.ascc.net (2001:288:3b0::c) 
296.088 ms 298.600 ms 292.196 ms 

5 ml160-c7513.int.ipv6.ascc.net (2001:288:3b0::1le) 
296.266 ms 314.878 ms 302.429 ms 

6 m20jp-mi60tw.int.ipv6.ascc.net (2001:288:3b0::1b) 
327.637 ms 326.897 ms 347.062 ms 

7 hitachil.otemachi.wide.ad.jp (2001:200:0:1800::9c4:2) 
420.140 ms 426.592 ms 422.756 ms 

8 pc3.yagami.wide.ad.jp (2001:200:0:1c04::1000:2000) 
415.471 ms 418.308 ms 461.654 ms 

9 gr2000.k2c.wide.ad.jp (2001:200:0:8002::2000:1) 
416.581 ms 422.430 ms 427.692 ms 

10 2001:200:0:4819:203:47f£:fea5:3085 (2001:200:0:4819:203:47ff: fea5: 3085) 
417.169 ms 434.674 ms 424.037 ms 
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在 UDP 套 接 字 上 接收 异步 ICMP 错 误 〈 即 ICMP 出 错 消息 ) 一 直 以 来 都 是 一 个 问题 。ICMP 
错误 由 内 核 收 取 之 后 很 少 被 递送 到 需要 了 解 它们 的 应 用 进程 。 在 套 接 字 API 中 我 们 已 经 看 到 收 
取 这 些 错误 要 求 把 UDP 套 接 字 连 接 到 某 个 耳 地 址 〈8.11 节 )。 如 此 限制 的 原因 在 于 ， 能 够 由 
recvfrom 返 回 的 错误 信息 仅仅 是 一 个 errno 整 数 代码 ， 如 果 一 个 应 用 进程 在 向 多 个 目 Sa 
数据 报 之 后 调用 recvfrom， 那 么 该 函数 难以 告知 应 用 进程 到 底 是 哪个 数据 报 引 发 了 一 个 错误 。 

我 们 将 在 本 节 给 出 无 需 改动 内 核 的 男 一 个 解决 办 法 。 我 们 将 提供 一 个 名 为 ijcmpd 的 ICMP 消 
息 守 护 程序 ， 它 创建 一 个 ICMPv4 原 始 套 接 字 和 一 个 ICMPv6 原 始 套 接 字 ， 接 收 内 核 传递 给 这 两 
个 原始 套 接 字 的 所 有 ICMP 消 息 。 它 还 创建 一 个 Unix 域 字 节 流 套 接 字 ， 把 路 径 名 /tmp/icmpad 捆 
绑 在 其 上 ， 然 后 在 这 个 套 接 字 上 监听 针对 该 路 径 名 的 外 来 客户 连接 。 图 28-26 展 示 了 icmpad 创 建 
的 这 3 个 套 接 字 。 








监听 Unix 域 字 节 流 套 接 字 ， 
绑 定 /tmp/icmpd 






原始 套 接 字 原始 套 接 字 


图 28-26 icmpe 守 护 进程 ;初始 创建 的 套 接 字 





(D 本 书 第 3 版 不 再 讲解 的 X/Open 传 输 接口 CXTD API 在 这 方面 略 有 改善 ， 它 的 recvfrcm 对 等 函数 (t rcvudata) 
为 此 返回 出 错 代码 ?LooK, 表明 调用 进程 早先 发 送 的 某 个 数据 报 引发 了 一 个 错误 , 应 用 进程 随后 必须 调用 另 一 个 
函数 〈*_rcvuderr) 获取 真正 的 错误 以 及 引发 这 个 错误 的 数据 报 的 宿 地 址 和 目的 端口 号 。 然 而 这 个 办 法 存在 如 
下 问题 : 内 核 在 任意 时 刻 也 许 只 能 维持 这 些 异步 错误 之 一 的 有 关 信 息 。 如 果 应 用 进程 发 送 了 《和 璧 如 说 ) 3 个 数据 
报 ， 而 且 有 2 个 引发 了 ICMP 错 误 ， 那 么 只 有 其 中 一 个 异步 地 返回 给 应 用 进程 。 


28.7 一 个 ICMP 消息 守护 程序 609 


作为 icmpa 守 护 进 程 的 客户 ， 一 个 UDP 应 用 进程 首先 创建 它 自 身 的 UDP 套 接 字 ， 该 套 接 字 
也 是 它 希望 为 之 接收 异步 错误 的 套 接 字 。 该 应 用 进程 必须 捆绑 一 个 临时 端口 到 这 个 UDP 套 接 字 ， 
其 原因 我 们 稍 后 讨论 。 接 着 它 创 建 一 个 Unix 域 字 节 流 套 接 字 ， 并 把 该 套 接 字 连接 到 icmpd 的 众 
所 周知 路 径 名 /tmp/icmpa)。 图 28-27 展 示 了 此 时 的 情形 。 


监听 Unix 域 字 节 流 套 接 字 ， 
绑 定 /cmpy/icmpa 






Unix 域 字 节 流 连接 


原始 套 接 字 


图 28-27 ”应 用 进程 创建 自身 的 UDP 套 接 字 和 到 icmpd 的 Unix 域 连接 
该 应 用 进程 然后 使 用 我 们 在 15.7 节 讲解 过 的 描述 符 传递 机 制 通 过 这 个 Unix 域 连接 把 它 的 
UDP 套 接 字 “ 传 递 ” 给 icmpd。icmpd 于 是 得 到 这 个 套 接 字 的 一 个 副本 ， 从 而 可 以 调用 getsock- 
name 获 取 绑 定 在 这 个 套 接 字 上 的 端口 号 。 图 28-28 展 示 了 这 个 套 接 字 传 递 过 程 。 


监听 Unix 域 字 节 流 套 接 字 ， 
绕 定 /tmpyicmpd 


图 28-28 ”应 用 进程 跨 Unix 域 连接 把 UDP 套 接 字 传递 给 icmpa 


icmpd 获 取 绑 定 在 那个 UDP 套 接 字 上 的 端口 号 之 后 就 关闭 该 套 接 字 的 本 地 副本 ， 它 和 应 用 
进程 的 关系 于 是 恢复 到 图 28-27 所 示 的 情形 。 

如 果 主 机 支持 赁 证 传递 (15.8 节 )， 该 应 用 进程 也 可 以 把 它 的 凭证 发 送 给 icmpG， 以 便 
icmpG 检 查 是 否 允 许 该 进程 的 属 主 用 户 访问 本 异步 错误 返回 机 制 。 

从 此 时 起 ，icmpa 一 旦 收取 由 该 应 用 进程 通过 绑 定 在 它 的 UDP 套 接 字 上 的 端口 发 送 的 UDP 
数据 报 所 引发 的 任何 ICMP 错 误 ， 就 通过 Unix 域 连接 向 该 应 用 进程 发 送 一 个 消息 〈 我 们 稍 后 讲解 
该 消息 )。 该 应 用 进程 因此 必须 使 用 select 或 pol1， 等 待 它 的 UDP 套 接 字 和 Unix 域 套 接 字 中 任 
何 一 个 有 数据 到 达 而 变 为 可 读 。 

下 面 我 们 首先 查看 使 用 icmpqa 的 一 个 应 用 程序 ， 然 后 查看 icmpda 守 护 程序 本 身 。 我 们 从 图 


28-29 开 始 讲解 ， 它 是 应 用 程序 和 icmpa 守 护 程 序 都 包含 的 头 文件 。 
| o_o 2 
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icmpd/unpicmpd.h 
1 $ifndef |. unpicmp h 
2 #define , unpicmp h 
3 include "unp.h" 
4 #define ICMPD PATH "/tmp/icmpd" /* server's weli-known pathname */ 
5 struct icmpd err { 
6 int icmpd, errno; /* EHOSTUNREACH, EMSGSIZE, ECONNREFUSED */ 
7 char icmpd type; /* actual ICMPv(46] type */ 
8 char icmpd, code; /* actual ICMPv[46] code */ 
9 sockien ticmpd len; /* length of sockaddr{} that follows */ 
10 struct sockaddr storage icmpd dest;/* sockaddr storage handles any size*/ 
11 }; 
12 #endif /* , unpicmp h */ 


icmpd/unpicmpd.h 
28-29 unpicmpd.h3k Xf 


定义 icmpda 的 众所周知 路 径 名 以 及 由 icmpaqa 传 递 给 应 用 进程 的 icmpa_err 结 构 。icmpd 
一 旦 收 到 一 个 必须 传递 给 某 个 应 用 进程 的 ICMP 消 息 就 传递 一 个 icmpq_err 结 构 给 这 个 
问题 是 ICMPv4 消 息 类 型 和 ICMPv6 消 息 类 型 在 数值 上 《〈 有 时 甚至 在 概念 上 ) 存在 差异 
〈 图 A-15 和 A-16)。 除 了 返回 真正 的 ICMP 类 型 值 和 代码 值 外 ， 我 们 还 把 它们 映射 成 一 个 
errno 值 〈icmpa_errno 成 员 )， 类 似 图 A-15 和 图 A-16 的 “处 理 者 或 erno” 栏 。 应 用 进 
程 可 以 直接 处 理 这 个 errno 值 ， 以 取代 处 理 协议 相关 的 ICMPv4 或 ICMPv6 值 。 图 28-30 
给 出 了 icmpa 处 理 的 ICMP 消 息 类 型 以 及 它们 的 errno 映 射 值 。 





ECONNREFUSED 端口 不 可 达 端口 不 可 达 
EMSGSIZE 需 分 片 但 DF 位 已 设置 分 组 过 大 
EHOSTUNREACH 超时 超时 
EHOSTUNREACH 源 熄灭 
EHOSTUNREACH 所 有 其 他 目的 地 不 可 达 代 码 所 有 其 他 目的 地 不 可 达 代 码 
图 28-30 ”从 ICMPv4 和 ICMPv6 错 误 映 射 到 icmpa_errno 
icmpd 返 回 $ 种 类 型 的 ICMP 错 误 。 


e 端口 不 可 达 Cport unreachable)， 指 示 在 目的 下 地 址 上 没有 绑 定 目 的 端口 的 套 接 字 。 

e 分 组 过 大 〈packet too big)， 用 于 MTU 发 现 。 目 前 尚未 定义 允许 UDP 应 用 进程 执行 路 
径 MTU 发 现 的 API。 在 对 UDP 提供 路 径 MTU 发 现 支持 的 内 核 上 通常 发 生 如 下 情形 ， 
该 ICMP 错 误 的 收取 导致 内 核 把 其 中 携带 的 路 径 MTU 新 值 记 录 在 自身 的 路 由 表 中 , 但 
是 不 通知 所 发 送 数据 报 因此 被 网 络 丢弃 的 那个 UDP 应 用 进程 。 该 应 用 进程 必须 超时 
并 重 传 该 数据 报 ， 这 种 情况 下 内 核 将 在 自身 的 路 由 表 中 找到 新 的 《而 且 是 更 小 的 ) 
MTU 值 ， 于 是 照 此 对 该 数据 报 执行 分 片 。 要 是 内 核 把 这 个 ICMP 错 误 传 递 回 该 应 用 进 
程 ， 它 就 不 仅 能 够 更 早 地 重 传 这 个 被 网 络 而 不 是 被 目的 地 丢弃 的 数据 报 ， 而 且 有 可 
能 应 用 其 中 携带 的 路 径 MTU 新 值 自行 降低 待 发 送 数据 报 的 大 小 。 

e 超时 (time exceeded)， 本 ICMP 错 误 类 型 常见 的 代码 为 0， 表 示 IPv4 的 TTL 或 IPv6 的 跳 
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限 已 到 达 0 值 。 本 错误 往往 表征 出 现 路 由 循环 ， 因 而 也 许 是 一 个 暂时 性 的 错误 。 

e ICMPv4 源 熄灭 (source quench)， 尽 管 RFC 1812 [Baker 1995] 反对 使 用 本 ICMP 错 
误 ， 路 由 器 〈 或 误 配 成 用 作 路 由 器 的 主机 ) 仍 可 能 发 送 它们 。 本 ICMP 错 误 指示 某 个 
分 组 已 被 丢弃 ， 因 此 我 们 像 处 理 目的 地 不 可 达 错 误 那 样 处 理 它们 。 注意 IPv6 没 有 源 糙 
灭 错误 。 

e 所 有 其 他 目的 地 不 可 达 错 误 指示 某 个 分 组 已 被 丢弃 。 

10 icmpd_dest 成 员 是 一 个 套 接 字 地 址 结构 ， 用 于 存放 引发 本 ICMP 错 误 的 那个 数据 报 的 
目的 IP 地 址 和 目的 端口 。 该 成 员 既 可 为 IPv4 的 sockaddr_in 结 构 ， 也 可 为 IPv6 的 
sockaddr_in6 结 构 。 如 果 应 用 进程 往 多 个 目的 地 发 送 数据 报 ， 那 么 每 个 目的 地 都 有 一 
个 这 样 的 套 接 字 地 址 结构 。 通 过 以 一 个 套 接 字 地 址 结构 返回 目的 人 P 地 址 和 端口 信息 ， 
应 用 进程 可 以 将 它 和 自己 的 各 个 结构 相 比 较 ， 从 而 找 出 导致 错误 的 那个 结构 。 这 是 一 
个 sockadqdr_storage 结 构 ， 能 容纳 系统 支持 的 任何 套 接 字 地 址 结构 。 


28.7.1 使 用 icmpa 的 UDP 回 射 客户 程序 


我 们 现在 把 UDP 回 射 客 户 程序 的 ag_cli 函 数 改 为 使 用 我 们 的 icmpa 守 护 程序 。 图 28-31 给 出 
了 该 函数 的 前 半 部 分 。 


icmpd/dgcli1.c 
1 #include “unpicmpd.h* 
2 void 
3 dg_cli(FILE *fp, int sockfd, const SA *pservaddr, socklen_t servlen) 
4 { 
5 int icmpfd, maxfdp1; 
6 char sendline[MAXLINE], recvline[MAXLINE + 1]; 
7 fd_set rset; 
8 ssize_t n; 
9 struct timeval tv; 
10 struct icmpd_err icmpd_err; 
11 struct sockaddr_un sun; 
12 Sock_bind_wild(sockfd, pservaddr->sa_family) ; 
13 icmpfd = Socket(AF LOCAL, SOCK STREAM, 0); 
14 sun.sun family - AF LOCAL; 
15 strcpy(sun.sun path, ICMPD PATH); 
16 Connect(icmpfd, (SA *)&sun, sizeof(sun)); 
17 Write fd(icmpfd, "1", 1, sockfd); 
18 n - Read(icmpfd, recvline, 1); 
19 if (n != 1 [| recvline[0] != '1') 
20 err_quit (“error creating icmp socket, n = %d, char = $c", 
21 n, recvline[0]); 
22 FD. ZERO (&rset) ; 
23 maxfdpl = max(sockfd, icmpfd) + 1; 
—— o icmpd/dgcli0}.c 





图 28-31 dag_cli 函 数 前 半 部 分 


2~3 ”这 个 版 本 的 ag_c1i 函 数 有 与 它 的 所 有 先前 版 本 同样 的 函数 参数 。 
捆绑 通 配 地 址 和 临时 端口 
12 ”调用 我 们 的 sock_binG_wild 函 数 把 通 配 亿 地 址 和 一 个 临时 端口 捆绑 到 UDP 套 接 字 。 这 
么 做 使 得 稍 后 传递 给 icmpa 的 那个 本 套 接 字 的 副本 有 一 个 绑 定 的 端口 ， 因 为 icmpa 需 要 
知道 这 个 端口 。 
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如 果 icmpa 收 取 的 本 套 接 字 副本 未 曾 绑 定 一 个 本 地 端口 ， 那 么 该 守护 进程 也 可 以 执行 这 
样 的 捆绑 ， 不 过 这 种 做 法 并 非 在 所 有 环境 中 都 行 之 有 效 。 在 SVR4 实 现 ( 壁 如 Solaris 2.5) 中 
套 接 字 并 不 是 内 核 的 一 部 分 ， 在 一 个 进程 把 一 个 端口 捆绑 到 某 个 共享 的 套 接 字 上 之 后 ， 拥 有 
这 个 套 接 字 的 一 个 副本 的 其 他 进程 会 在 试图 使 用 该 套 接 宇 时 碰 到 奇怪 的 错误 。 最 简易 的 解决 
办 法 就 是 要 求 应 用 进程 在 把 本 套 接 字 传递 给 icmpa 之 前 绑 定 本 地 端口 。 


与 1cmpd 建 立 Unix 域 连接 

13-16 创建 一 个 AF_LOCAL 套 接 字 ， 并 connect 到 icmpd 的 众所周知 路 径 名 。 

把 UDP 套 接 字 发 送 给 icmpa 并 等 待 它 的 应 答 

17-21 ”调用 我 们 的 write_fa 函 数 〈 图 15-13) 把 本 UDP 套 接 字 的 一 个 副本 发 送 给 icmpda。 我 们 
还 发 送 一 个 值 为 字符 “1?” 的 单字 节 普 通 数据 ， 因 为 有 些 实现 不 会 在 没有 任何 普通 数据 
的 条 件 下 以 辅助 数据 的 形式 传递 描述 符 。icmpa 通 过 发 送 回 一 个 值 为 字符 “1” 的 单字 
节 数 据 表 示 成 功 。 任 何其 他 应 答 均 表示 发 生 某 个 错误 。 

22~23 ”初始 化 一 个 描述 符 集 , 并 计算 select 的 第 一 个 参数 (两 个 套 接 字 描述 符 的 较 大 值 再 加 1)。 

图 28-32 给 出 sg_cli 函 数 的 后 半 部 分 。 它 是 一 个 循环 : 从 标准 输入 读 入 一 个 文本 行 ， 并 把 








该 文本 行 发 送 给 服务 器 ， 然 后 读 入 来 自 服务 器 的 应 答 ， 并 把 该 应 答 写 出 到 标准 输出 。 
-一 一 一 一 一 一 Kmipddegcii01.c 
24 while (Fgets(sendline, MAXLINE, fp) != NULL) ( 
25 Sendto(sockfd, sendline, strlen(sendline), 0, pservaddr, servlen); 
26 tv.tv sec - 5; 
27 tv.tv usec - 0; 
28 FD SET(sockfd, &rset); 
29 FD SET(icmpfd, &rset); 
30 if ( (n = Select(maxfdpl, &rset, NULL, NULL, &tv)) == 0) ( 
31 fprintf(stderr, "socket timeout\n"); 
32 continue; 
33 } 
34 if (FD ISSET(sockfd, &rset)) { 
35 n - Recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL); 
36 recvline[n] - 0; /* null terminate */ 
37 Fputs(recvline, stdout); 
38 ) 
39 if (FD ISSET(icmpfd, &rset)) ( 
40 if ( (n = Read(icmpfd, &icmpd err, sizeof(icmpd err))) == 0) 
41 err quit("ICMP daemon terminated"); 
42 else if (n !- sizeof(icmpd err)) 
43 err quit("n = $d, expected $d", n, sizeof(icmpd err)); 
44 printf("ICMP error: dest = %s, %s, type = $d, code = %d\n", 
45 Sock ntop(&icmpd err.icmpd dest, icmpd err.icmpd len), 
46 strerror(icmpd err.icmpd errno), 
47 icmpd err.icmpd type, icmpd err.icmpd code); 
48 ) 
49 ) 
50 ) 
- —— icmpd/dgcli01.c 


图 28-32 ”dg_cli 函 数 后 半 部 分 
调用 select 
26-33 ”既然 是 在 调用 select， 我 们 可 就 此 轻易 地 在 等 待 来 自 回 射 服务 器 的 应 答 上 设置 一 个 超 
时 。 我 们 把 超时 时 间 设 置 为 5 秒 钟 ， 打 开 两 个 套 接 字 在 读 描述 符 集中 对 应 的 位 ， 然 后 调 
用 select。 一 旦 发 生 超 时 ， 我 们 就 显示 一 个 消息 并 跳 转 到 循环 开始 处 。 


287 一 个 ICMP 消息 守护 程序 613 


显示 服务 器 的 应 答 
34-38 ”如 果 服 务 器 返回 一 个 数据 报 ， 我 们 就 把 它 显示 到 标准 输出 。 
处 理 ICMP 错 误 
39~48 ”如 果 到 icmpd 的 Unix 域 连接 变 为 可 读 , 我 们 就 试图 读 入 一 个 icmpd_err 结 构 。 如 果 读 入 
成 功 ， 那 就 显示 由 icmpd 返 回 的 相关 信息 。 
strerror 是 移植 性 本 该 更 好 的 简单 画 教 的 一 个 例子 。 HA, ANSI C 没 有 就 该 函数 如 何 
返回 错误 给 出 任何 说 明 。Solaris 上 的 手册 页 面 说 ， 如 果 和 参数 超出 有 效 范围 ， 该 函数 就 返回 一 
个 空 指针 。 可 是 这 却 意 味 着 如 下 代码 : 
printf("*s", strerror(arg)); 
是 不 正确 的 ， 因 为 strerror 有 可 能 返回 一 个 空 指针 。 但 是 FreeBSD 实 现 以 及 作者 们 能 够 
找到 的 所 有 其 他 源 代 码 实 现 都 把 无 效 套数 处 理 成 返回 一 个 指向 诸如 “Unknown error” 等 字符 
串 的 指针 。 这 么 做 意思 清楚 ， 也 使 得 上 述 代码 不 会 出 错 。 然 而 POSIX 又 作 了 改动 ， 指 出 由 于 
没有 任何 返回 值 保 留用 于 指示 错误 ， 如 果 参 数 超出 有 效 范 围 ， 该 函数 就 把 errno 设 置 为 
EINVAL. (POSIX 未 就 出 错 情况 下 返回 的 指针 给 出 任何 说 明 。) 这 就 意味 着 完全 符合 POSIX 
的 代码 必须 先 把 errno 设 置 为 0, HPA strerror BR, 然后 测试 errno 值 是 否 等 于 EINVAL， 
如 果 发 现 出 错 那 就 显示 另外 某 个 消息 。 


28.7.2 UDP 回 射 客户 程序 运行 例子 


在 查看 icmpa 源 代码 之 前 ， 我 们 给 出 运行 本 客户 程序 的 一 些 例 子 。 首 先 往 一 个 未 接 入 因 特 
网 的 下 地 址 发 送 数据 报 。 


freebsd % udpcli01 192.0.2.5 echo 
hi there 

socket timeout 

and hello 

socket timeout 


我 们 假设 icmpa 正 在 运行 ， 并 且 期 望 某 个 路 由 器 返 送 ICMP “host unreachable” fix, At 
没有 接收 到 任何 ICMP 错 误 ， 而 且 我 们 的 应 用 进程 发 生 超 时 。 我们 给 出 这 个 例子 是 为 了 强调 超时 
仍然 是 必需 的 ， 诸 如 “host unreachable” 等 ICMP 出 错 消息 的 产生 可 能 不 会 发 生 。 

我 们 的 下 一 个 例子 是 向 一 个 不 在 运行 标准 echo 服 务 器 的 主机 发 送 目 的 端口 为 标准 echo 服 务 
器 的 数据 报 。 正 如 所 料 ， 我 们 会 收 到 一 个 ICMPv4 “port unreachable” 错 误 。 


freebsd $ udpcli01 aix-4 echo 
hello, world 
ICMP error: dest = 192.168.42.2:7, Connection refused, type = 3, code = 3 


我 们 使 用 IPv6 再 次 尝试 ， 也 如 愿 收 到 一 个 ICMPv6 “port unreachable” 错 误 〈 我 们 对 过 长 的 
输出 行 做 了 折 行 处 理 )。 


freebsd $ udpcli01 aix-6 echo 
hello, world 
ICMP error: dest = (3ffe:b80:1f8d:2:204:ac££:£e17:bf38]:7, 
Connection refused, type = 1, code = 4 


28.7.3 icmpd 守护 进程 


我 们 从 如 图 28-33 所 示 的 icmpa.h 头 文件 开始 讲解 我 们 的 icmpa 守 护 程序 。 
client 数 组 


2~17 ”既然 icmpa 能 够 处 理 任意 数目 的 客户 ， 于 是 我 们 使 用 一 个 client 结 构 数组 来 保存 关于 


N 
> 
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每 个 客户 的 信息 。 该 结构 数组 类 似 于 我 们 在 6.8 节 所 用 的 数据 结构 。 除 了 到 每 个 客户 的 
Unix 域 已 连接 描述 符 外 ， 我 们 还 保存 该 客户 的 UDP 套 接 字 的 地 址 族 〈aF_INET 或 
AF INET6) 以 及 绑 定 在 该 套 接 字 上 的 端口 号 。 我 们 还 声明 各 个 函数 原型 以 及 由 它们 共 


享 的 全 局 变量 。 
1 #include "unpicmpd.h" 
2 struct client { 
3 int connfd; /* Unix domain stream socket to client */ 
4 int family; /* AF INET or AF INET6 */ 
5 int lport; /* local port bound to client's UDP socket */ 
6 /* network byte ordered */ 
7 } client [FD SETSIZE]; 


8 /* globals */ 

9 int fd4, fd6, listenfd, maxi, maxfd, nready; 
10 fd set rset, allset; 

11 struct sockaddr un cliaddr; 


12 /* £unction prototypes */ 
13 int readable conn(int); 

14 int readable listen(void); 

15 int readable v4(void); 

16 int readable v6 (void); 





图 28-33 icmpda 守 护 程序 的 icmpda.h 头 文件 
图 28-34 给 出 main 函 数 的 前 半 部 分 。 


1 #include "icmpd.h" 


2 int 

3 main(int argc, char **argv) 

4 í 

5 int i, sockfd; 

6 struct sockaddr un sun; 

7 if (argc != 1) 

8 err quit("usage: icmpd"); 

9 maxi - -1; /* index into client[] array */ 
10 for (i = 0; i < FD SETSIZE; i++) 

11 client[i].connfd = -1; /* -1 indicates available entry */ 
12 FD. ZERO(&allset); 

13 fd4 = Socket(AF INET, SOCK RAW, IPPROTO_ICMP) ; 
14 FD SET(fd4, &allset); 

15 maxfd = fd4; 

16 #ifdef  IPV6 

17 fd6 = Socket(AF INET6, SOCK RAW, IPPROTO_ICMPV6) ; 
18 FD. SET(fd6, &allset); 

19 maxfd = max(maxfd, fd6); 

20 #tendif 

21 listenfd - Socket(AF UNIX, SOCK STREAM, 0); 

22 sun.sun family = AF LOCAL; 

23 strcpy(sun.sun path, ICMPD PATH); 

24 unlink (ICMPD_PATH) ; 

25 Bind(listenfd, (SA *)&sun, sizeof(sun)); 

26 Listen(listenfd, LISTENQ); 

27 FD SET(listenfd, &allset); 


28 maxfd - max(maxfd, listenfd); 


图 28-34 main 函数 前 半 部 分 ;创建 套 接 字 


icmpd/icmpd.h 


icmpd/icmpd.h 


icmpd/icmpd.c 


icmpd/icmpd.c 
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初始 化 client 数 组 

9-11 通过 把 已 连接 套 接 字 成 员 设 置 为 -1 初始 化 client 数 组 。 

创建 套 接 字 

12-28 ”创建 3 个 套 接 字 : 一 个 原始 ICMPv4 套 接 字 、 一 个 原始 ICMPv6 套 接 字 和 一 个 Unix 域 字 节 
流 套 接 字 。unlink 最 近 一 次 运行 icmed 可 能 遗留 的 Unix 域 套 接 字 路 径 名 ，bina 它 的 众 
所 周知 路 径 名 到 这 个 Unix 域 套 接 字 ， 然 后 1isten 外 来 连接 。 这 是 客户 connect 的 目标 
套 接 字 。 计 算 select 和 为 调用 accept 所 分 配 的 套 接 字 地 址 结构 所 需 的 最 大 描述 符 。 

图 28-35 给 出 main 函 数 的 后 半 部 分 。 它 是 一 个 无 限 循环 : 调用 select， 等 待 任 一 描述 符 变 
为 可 读 。 














icmpd/icmpd.c 

29 for (; 3) { 
30 rset - allset; 
31 nready = Select (maxfd+1, &rset, NULL, NULL, NULL); 
32 if (FD ISSET(listenfd, &rset)) 
33 if (readable listen() «- 0) 
34 continue; 
35 if (FD ISSET(fd4, &rset)) 
36 if (readable v4() <= 0) 
37 continue; 
38 #ifdef IPV6 
39 if (FD ISSET(fd6, &rset)) 
40 if (readable v6() <= 0) 
41 continue; 
42 tendif 
43 for (i = 0; i <= maxi; i++) { /* check all clients for data */ 
44 if ( (sockfd = client(i].connfd) < 0) 
45 continue; 
46 if (FD_ISSET(sockfd, &rset)) 
47 if (readable conn(i) <= 0) 
48 break; /* no more readable descriptors */ 
49 ) 
50 ) 
51 exit (0); 
52 ) 

-—— —— — —— -icmpd/icmpd.c 


[428-35 ”main 函数 后 半 部 分 ， 处 理 可 读 描述 符 


检查 监听 Unix 域 套 接 字 

32-34 首先 测试 监听 Unix 域 套 接 字 ， 若 已 就 绪 则 调用 readaable_listen。 存 放 select 返 回 的 
可 读 描述 符 数 的 变量 nreadqy 是 一 个 全 局 变量 。 每 个 形 如 readable XXX 的 函数 都 递减 
该 变量 ， 并 作为 函数 返回 值 返回 它 的 新 值 。 当 该 值 到 达 0 时 ， 所 有 可 读 描述 符 都 已 被 处 
理 ， 于 是 再 次 调用 select。 

检查 原始 ICMP 套 接 字 

35-42 ” 先 测 试 原始 ICMPv4 套 接 字 ， 青 测试 原始 ICMPv6 套 接 字 。 

检查 已 连接 Unix 域 套 接 字 

43~49 ”测试 每 个 已 连接 Unix 域 套 接 字 ， 其 中 任何 一 个 变 为 可 读 意味 着 相应 客户 已 发 送 一 个 描 
述 符 ， 或 者 该 客户 已 终止 。 
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图 28-36 给 出 的 readaable_listen 函 数 在 icmpq 的 监听 套 接 字 变 为 可 读 时 被 调用 ， 表 示 出 现 
一 个 新 的 客户 连接 。 


1 #include "icmpd.h" 





icmpd/readable listen.c 


2 int 

3 readable listen(void) 

4{ 

5 int i, connfd; 

6 socklen_t clilen; 

7 clilen = sizeof (cliaddr) ; 

8 connfd = Accept (listenfd, (SA *)&cliaddr, &clilen); 

9 /* find first available client[] structure */ 

10 for (i = 0; i < FD SETSIZE; i++) 

11 if (client[i].connfd « 0) ( 

12 client[i].connfd - connfd; /* save descriptor */ 

13 break; 

14 ) 

15 if (i == FD SETSIZE) { 

16 close (connfd) ; /* can't handle new client, */ 
17 return (--nready) ; /* rudely close the new connection */ 
18 } 

19 printf ("new connection, i = %d, connfd = %d\n", i, connfd); 
20 FD SET(connfd, &allset); /* add new descriptor to set */ 
21 if (connfd » maxfd) 

22 maxfd - connfd; /* for select() */ 

23 if (i » maxi) 

24 maxi - i; /* max index in client[] array */ 
25 return(--nready); 

26 } 


icmpd/readable listen.c 
图 28-36 ”处 理 新 的 客户 连接 


7-25 ”接受 新 的 客户 连接 ， 并 选用 client 数 组 中 第 一 个 可 用 元 素 。 本 函数 中 的 代码 复制 自 图 
6-22 前 半 部 分 。 如 果 在 客户 数组 中 未 找到 数据 项 ， 我 们 就 直接 关闭 新 的 客户 连接 ， 转 
而 处 理 当前 的 客户 。 
图 28-37 给 出 readable_conn 函 数 的 前 半 部 分 ， 它 在 某 个 已 连接 套 接 字 变 为 可 读 时 被 调用 ， 
[778] 其 参数 为 相应 客户 在 client 数 组 中 的 下 标 。 
读 取 客 户 发 送 的 数据 及 可 能 有 的 描述 符 
13-18 调用 图 15-11 中 的 reaqa_fd 函 数 读 入 来 自 客户 的 数据 和 可 能 有 的 描述 符 。 如 果 返 回 值 为 
0， 那 么 相应 客户 已 关闭 它 所 在 的 连接 端 ， 这 可 能 由 进程 终止 引起 。 


为 了 在 应 用 进程 和 icmpd 之 间 传 递 描述 符 ， 我 们 可 以 使 用 Unix 域 字 节 流 套 接 字 ， 也 可 以 
使 用 Unix 域 数据 报 套 接 字 。 应 用 进程 的 UDP 套 接 字 可 经 由 任 一 类 型 的 Unix 域 套 接 字 传 递 。 之 
所 以 采用 字 节 流 套 接 字 是 为 了 检测 客户 何 时 终止 。 当 一 个 客户 终止 时 ， 它 的 所 有 描述 符 ( 包 
括 它 到 icmpd 的 Unix 域 连接 ) 都 被 自动 关闭 , 这 就 告知 icmpa 从 client 数 组 中 清除 关于 这 个 客 
户 的 信息 。 要 是 使 用 数据 报 套 接 字 ， 我 们 就 无 法 得 知客 户 何 时 终止 。 


16-20 如果 客 户 未 关闭 本 连接 ， 那 么 我 们 期 待 收取 一 个 描述 符 。 
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icmpd/readable conn.c 
1 #include "icmpd.h" 


2 int 

3 readable conn(int i) 

4{ 

5 int unixfd, recvfd; 

6 char Cc; 

7 ssize t n; 

8 Socklen t len; 

9 struct sockaddr storage ss; 

10 unixfd = client[i].connfd; 

1i recvfd - -1; 

12 if ( (n = Read fd(unixfd, &c, 1, &recvfd)) == 0) { 

13 err msg("client $d terminated, recvfd = $d", i, recvfd); 
14 goto clientdone; /* client probably terminated */ 
15 ) 

16 /* data from client; should be descriptor */ 

17 if (recvfd < 0) ( 

18 err msg("read fd did not return descriptor"); 

19 goto clienterr; 

20 } 


icmpd/readable_conn.c 
图 28-37 WAKA AP HB AIET BE RO TURAE 


图 28-38 给 出 readable_conn 函 数 的 后 半 部 分 。 


icmpd/readable conn.c 
21 len = sizeof(ss); 
22 if (getsockname(recvfd, (SA *) &ss, &len) < 0) { 
23 err ret("getsockname error"); 
24 goto clienterr; 
25 } 
26 client [i] .family = ss.ss_family; 
27 if ( (client[i].lport = sock get port((SA *)&ss, len)) == 0) ( 
28 client[i].lport = sock bind wild(recvfd, client[i].family); 
29 if (client[i].lport <= 0) ( 
30 err ret("error binding ephemeral port"); 
31 goto clienterr; 
32 ) 
33 } 
34 Write(unixfd, "1", 1); /* tell client all OK */ 
35 Close (recvfd); /* all done with client's UDP socket */ 
36 return(--nready); 


37 clienterr: 


38 Write(unixfd, "0", 1); /* tell client error occurred */ 
39 clientdone: 

40 Close (unixfd); 

41 if (recvfd »- 0) 

42 Close (recvfd); 

43 FD CLR(unixfd, &allset); 

44 client(i].connfd - -1; 

45 return(--nready); 

46 ) 


icmpd/readable conn.c 
图 28-38 ”获取 客户 捆绑 在 UDP 套 接 字 上 的 端口 号 
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获取 绑 定 在 UDP 套 接 字 上 的 端口 号 
21-25 icmpda 调 用 getsockname 以 获取 客户 捆绑 在 它 的 UDP 套 接 字 上 的 端口 号 。 既 然 我 们 不 知 
道 该 为 这 个 套 接 字 地 址 结构 分 配 多 大 的 缓冲 区 ， 于 是 我 们 使 用 一 个 sockaddar_storage 结 
构 ， 该 结构 既 足 够 大 又 适当 地 对 齐 ， 适 合 存放 系统 支持 的 任何 套 接 字 地 址 结构 。 
26-33 把 客户 UDP 套 接 字 的 地 址 族 和 端口 号 存放 在 该 客户 的 client 结 构 中 。 如 果 端 口号 为 0， 
那 就 调用 我 们 的 sock_bind_wild 函 数 把 通 配 地 址 和 一 个 临时 端口 捆绑 到 这 个 套 接 字 ， 
不 过 如 前 所 提 ， 这 么 做 在 SVR4 实 现 上 行 不 通 。 
通知 客户 操作 成 功 
34 ”把 值 为 字符 “1” 的 单字 节 数 据 发 送 回 客户 。 
关闭 客户 的 UDP 套 接 字 
3s ”我 们 已 经 在 由 客户 传递 来 的 UDP 套 接 字 的 副本 上 完成 相关 任务 ， 于 是 关闭 它 。 既 然 该 
描述 符 是 客户 传递 来 的 ， 因 而 只 是 一 个 副本 ; 尽管 关闭 了 这 个 副本 ， 该 UDP 套 接 字 在 
客户 中 仍然 是 打开 着 的 。 
处 理 错误 发 生 和 客户 终止 
37-45 ”如 果 发 生 错误 ， 那 就 把 值 为 字符 “0” 的 单字 节 数 据 发 送 回 客户 。 如 果 客 户 终止 ( 即 客 
户 关闭 了 所 在 的 连接 端 )， 那 就 关闭 本 Unix 域 连接 的 服务 器 端 ， 并 从 select 的 描述 符 
集中 清除 该 描述 符 。 把 该 客户 的 client 结 构 中 的 connfG 成 员 设 置 为 -1， 以 指示 作为 
client 数 组 元 素 之 一 的 这 个 client 结 构 又 可 以 使 用 。 
我 们 的 readaable_v4 函 数 在 原始 ICMPv4 套 接 字 变 为 可 读 时 被 调用 。 图 28-39 给 出 了 它 的 前 
半 部 分 。 这 部 分 代码 类 似 我 们 早先 在 图 28-8 和 图 28-20 中 给 出 的 ICMPv4 处 理 代码 。 


———- iempd/readable v4.c 











#include "icmpd.h" 

#include <netinet/in_systm.h> 
#include <netinet/ip.h> 
#include <netinet/ip_icmp.h> 
#include <netinet/udp.h> 

int 

readable_v4 (void) 


" 
Oo 00-0 BUNE 
一 


int i, hlenl, hlen2, icmplen, sport; 
char buf [MAXLINE] ; 


11 char srcstr[INET ADDRSTRLEN], dststr[INET ADDRSTRLEN]; 

12 ssize t n; 

13 socklen_t len; 

14 struct ip *ip, *hip; 

15 struct icmp *icmp; 

16 struct udphdr *udp; 

17 struct sockaddr_in from, dest; 

18 struct icmpd_erricmpd_err; 

19 len = sizeof (from); 

20 n = Recvfrom(fd4, buf, MAXLINE, 0, (SA *) &from, &len); 

21 printf("$d bytes ICMPv4 from %s:", n, Sock_ntop_host((SA *) &from, len)); 
22 ip = (struct ip *) buf; /* start of IP header */ 

23 hlenl = ip-»ip hl << 2; /* length of IP header */ 

24 icmp = (struct icmp *) (buf + hlenl); /* start of ICMP header */ 
25 if ( (icmplen = n - hlenl) < 8) 

26 err quit("icmplen ($d) « 8", icmplen); 

27 printf(" type = $d, code = %d\n", icmp-»icmp.type, icmp-»icmp code); 


icmpd/readable v4.c 








图 28-39 处理 所 接收 的 ICMPv4 数 据 报 ， 前 半 部 分 
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这 部 分 代码 显示 每 个 接收 到 的 ICMPv4 消 息 的 有 关 信 息 。 它 们 是 在 开发 本 守护 程序 时 为 便于 
调试 而 增加 的 ， 当 时 可 以 基于 一 个 命令 行 参数 打开 这 些 输出 。 
图 28-40 给 出 readaable_v4 函 数 的 后 半 部 分 。 


icmpd/readable v4.c 


28 if (icmp-»icmp type == ICMP UNREACH || 

29 icmp-»icmp type == ICMP TIMXCEED || 

30 icmp-»icmp type == ICMP_SOURCEQUENCH) { 

31 if (icmplen < 8 + 20 + 8) 

32 err quit("icmplen (%d) < 8 + 20 + 8", icmplen); 

33 hip = (struct ip *) (buf + hlenl + 8); 

34 hlen2 = hip->ip_hl << 2; 

35 printf("\tsrcip = ts, dstip = $s, proto = %d\n", 

36 Inet ntop(AF, INET, &hip-»ip src, srcstr, sizeof(srcstr)), 
37 Inet ntop(AF INET, &hip-»ip dst, dststr, sizeof(dststr)), 
38 hip-»ip p); 

39 if (hip-»ip.p -- IPPROTO UDP) ( 

40 udp = (struct udphdr *) (buf + hlenl + 8 + hlen2); 

41 sport = udp-»uh sport; 

42 /* find client's Unix domain socket, send headers */ 

43 for (i = 0; i <= maxi; i++) { 

44 if (client[i].connfd >= 0 && 

45 client[i].family -- AF INET && 

46 client(il.lport == sport) { 

47 bzero(&dest, sizeof (dest) ); 

48 dest.sin_family = AF_INET; 

49 #ifdef HAVE_SOCKADDR_SA_LEN 

50 dest.sin len = sizeof (dest); 

51 #endif 

52 memcpy (&dest.sin addr, &hip-»ip dst, 

53 sizeof(struct in addr)); 

54 dest.sin port - udp-»uh dport; 

55 icmpd err.icmpd type - icmp-»icmp type; 

56 icmpd err.icmpd code = icmp-»icmp code; 

57 icmpd err.icmpd len = sizeof(struct sockaddr, in); 
58 memcpy (&icmpd err.icmpd dest, &dest, sizeof(dest)); 
59 /* convert type & code to reasonable errno value */ 
60 icmpd err.icmpd errno = EHOSTUNREACH; /* default */ 
61 if (icmp-»icmp type == ICMP UNREACH) { 

62 if (icmp-»icmp code == ICMP_UNREACH_ PORT) 

63 icmpd err.icmpd errno = ECONNREFUSED; 

64 else if (icmp-»icmp code == ICMP UNREACH NEEDFRAG) 
65 icmpd err.icmpd errno - EMSGSIZE; 

66 ) 

67 Write(client{i].connfd, &icmpd err, sizeof(icmpd err)); 
68 } 

69 } 

70 } 

71 ) 

72 return(--nready); 

73 ) 





icmpd/readable v4.c 
图 28-40 ”处 理 所 接 收 的 CMPv4 数 据 报 ， 后 半 部 分 
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检查 需 通知 应 用 进程 的 消息 类 型 
29-31 我们 只 把 类 型 为 目的 地 不 可 达 、 超 时 或 源 熄灭 的 ICMPv4 消 息 〈 图 28-30) 传递 给 相应 的 
应 用 进程 。 


检查 UDP 出 错 信息 ， 找 出 相应 客户 

34-42 ”hip 指 向 所 接收 的 ICMP 消 息 中 跟 在 ICMP 首 部 之 后 的 外 首部 ， 它 是 引发 本 ICMP 错 误 的 
那个 数据 报 的 人 P 首 部 。 我 们 验证 这 个 IP 数 据 报 是 一 个 UDP 数 据 报 , 然后 从 跟 在 IP 首 部 之 
后 的 UDP 首 部 中 取出 源 UDP 端 口号 。 

43-55 ”搜索 client 数 组 的 所 有 client 结 构 元 素 ， 寻 找 地 址 族 和 端口 号 都 匹配 的 客户 。 如 果 找 
到 这 个 客户 ， 那 就 构造 一 个 IPv4 套 接 字 地 址 结构 ， 存 放 引 发 本 错误 的 那个 UDP 数据 报 
的 目的 耶 地 址 和 目的 端口 号 。 

构造 icmpa_err 结 构 

56~70 ”构造 一 个 icmpd_err 结 构 , 并 通过 到 达 相 应 客户 的 Unix 域 连接 把 它 发 送出 去 。 如 图 28-30 
所 述 ， 我 们 首先 把 ICMPv4 消 息 类 型 和 代码 映射 成 某 个 errno 值 。 

ICMPv6 错 误 由 我 们 的 readable_v6 函 数 处 理 ， 图 28-41 给 出 了 它 的 前 半 部 分 。ICMPv6 的 处 
理 类 似 图 28-12 和 图 28-24 中 的 代码 。 


——— icmpd/readable v6.c 





1 #include "icmpd.n" 

2 #include «netinet/in systm.h» 

3 #include «netinet/ip.h» 

4 #include «netinet/ip icmp.h» 

5 #include «netinet/udp.h» 

6 #ifdef  IPV6 

7 #include <netinet/ip6.h> 

8 #include <netinet/icmp6.h> 

9 #endif 

10 int 

11 readable v6 (void) 

12 { 

13 #ifdef  IPV6 

14 int i, hlen2, icmp6len, sport; 

15 char buf [MAXLINE} ; 

16 char srcstr[INET6 ADDRSTRLEN], dststr[INET6 ADDRSTRLEN]; 
17 ssize t n; 

18 socklen_t len; 

19 struct ip6 hdr *ip6, *hip6; 

20 struct icmp6_hdr*icmp6; 

21 struct udphdr *udp; 

22 struct sockaddr in6 from, dest; 

23 struct icmpd erricmpd err; 

24 len = sizeof(from); 

25 n - Recvfrom(fd6, buf, MAXLINE, 0, (SA *) &from, &len); 

26 printf("$d bytes ICMPv6 from $s:", n, Sock ntop host((SA *) &from, len)); 
27 icmp6 - (struct icmp6 hdr *) buf; /* start of ICMPv6 neader */ 
28 if ( (icmp6len = n) < 8) 

29 err quit("icmp6len ($d) « 8", icmp6len); 


30 printf(" type = $d, code = %d\n", icmp6-»icmp6 type, icmp6-»icmp6 code); 
—— À—————— — —  — — — icmpd/readable v6.c 


图 28-41 处理 所 接收 的 ICMPv6 数 据 报 ， 前 半 部 分 
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图 28-42 给 出 了 readqable_v6 函 数 的 后 半 部 分 。 这 部 分 代码 类 似 图 28-40: 先 检查 ICMP 错 误 
类 型 ， 再 查看 引发 本 错误 的 卫 数 据 报 是 否 为 一 个 UDP 数据 报 ， 然 后 构造 一 个 icmpa_err 结 构 发 


送 给 相应 客户 。 
icmpd/readable v6.c 
31 if (icmp6-»icmp6 type == ICMP6 DST UNREACH | | 
32 icmp6-»icmp6 type == ICMP6, PACKET TOO BIG || 
33 icmp6--icmp6 type == ICMP6 TIME EXCEEDED) { 
34 if (icmp6len « 8 - 8) 
35 err quit("icmp6len ($d) < 8 + 8", icmp6len); 
36 hip6 = (struct ip6 hdr *) (buf + 8); 
37 hlen2 = sizeof(struct ip6_hdr) ; 
38 printf("\tsrcip = ts, dstip = $s, next hdr = %d\n", 
39 Inet ntop(AF INET6, &hip6-»ip6 src, srcstr, sizeof(srcstr)), 
40 Inet ntop(AF INET6, &hip6-»ip6 dst, dststr, sizeof(dststr)), 
41 hip6-»ip6 nxt); 
42 if (hip6->ip6_nxt == IPPROTO UDP) ( 
43 udp - (struct udphdr *) (buf « 8 « hlen2); 
44 sport - udp-»uh sport; 
45 /* find client's Unix domain socket, send headers */ 
46 for (i = 0; i <= maxi; i++) { 
47 if (client[i].connfd >= 0 && 
48 client(i].family == AF INET6 && 
49 client[il.iport == sport) ( 
50 bzero(&dest, sizeof(dest)); 
51 dest.sin6 family = AF INET6; 
52 #ifdef HAVE SOCKADDR SA LEN 
53 dest.sin6 len = sizeof (dest); 
54 #endif 
55 memcpy (&dest.sin6 addr, &hip6-»ip6 dst, 
56 sizeof(struct in6 addr)); 
57 dest.sin6, port = udp-»uh dport; 
58 icmpd err.icmpd type = icmp6-»icmp6 type; 
59 icmpd err.icmpd code = icmp6--icmp6, code; 
60 icmpd err.icmpd len - sizeof(struct sockaddr in6); 
61 memcpy (&kicmpd err.icmpd dest, &dest, sizeof(dest)); 
62 /* convert type & code to reasonable errno value */ 
63 icmpd err.icmpd errno - EHOSTUNREACH; /* default */ 
64 if (icmp6-»icmp6 type == ICMP6 DST UNREACH && 
65 icmp6-»icmp6 code == ICMP6 DST UNREACH, NOPORT) 
66 icmpd_err.icmpd_errno = ECONNREFUSED; 
67 if (icmp6->icmp6_type == ICMP6_PACKET_TOO_BIG) 
68 icmpd_err.icmpd_errno = EMSGSIZE; 
69 Write(client[i].connfd, &icmpd_err, sizeof (icmpd_err)); 
70 } 
71 } 
72 } 
73 } 
74 return (--nready) ; 
75 #endif 
76 } 





icmpd/readable_v6.c 
图 28-42 ”处 理 所 接 收 的 ICMPv6 数 据 报 ， 后 半 部 分 
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288 小 结 _ 


原始 套 接 字 提 供 以 下 3 个 能 力 。 

e 进程 可 以 读 写 ICMPv4、IGMPv4 和 ICMPv6 等 分 组 。 

e 进程 可 以 读 写 内 核 不 处 理 其 协议 字段 的 IP 数 据 报 。 

e 进程 可 以 自行 构造 IPv4 首 部 ， 通 常用 于 诊断 目的 ( 亦 或 不 幸 地 被 黑客 们 利用 )。 

ping 和 traceroute 这 两 个 常用 的 诊断 工具 使 用 原始 套 接 字 完 成 任务 ， 我 们 自行 开发 的 这 
两 个 程序 同时 支持 IPv4 和 IPv6。 我们 还 自行 开发 了 icmpd 守 护 程序 , 使 得 UDP 应 用 进程 能 够 访问 
由 自己 的 UDP 套 接 字 异步 触发 的 ICMP 错 误 。 这 个 守护 程序 也 是 一 个 通过 Unix 域 套 接 字 在 无 亲缘 
关系 的 客户 和 服务 器 之 间 传 递 描述 符 的 例子 。 


28. 我 们 说 过 IPv6 首 部 的 几乎 所 有 字段 以 及 所 有 扩展 首部 都 可 以 通过 套 接 字 选 项 或 辅助 数据 由 应 用 进程 
指定 或 获取 。 应 用 进程 无 法 获取 或 指定 IPv6 数 据 报 中 的 哪些 信息 ? 

28.2 在 图 28-40 中 如 果 由 于 某 种 原因 客户 停止 从 通 往 icmpda 守 护 进 程 的 Unix 域 连接 读 入 数据 ， 然 而 来 自 
icmpda 的 ICMP 错 误 信息 却 大 量 到 达 ， 那 将 会 发 生 什么 ? 最 简单 的 解决 办 法 是 什么 ? 

28.3 ”如 果 我 们 指定 本 地 子 网 的 子 网 定向 广播 地 址 运行 我 们 的 ping 程 序 (注意 ,路 由 器 通常 不 转发 子 网 定 
向 广播 地 址 ) , 它 将 正常 工作 。 也 就 是 说 , 即使 我 们 不 设置 S0_BROADCAST 套 接 字 选项 , 广播 的 CMP 
回 射 请 求 也 作为 一 个 链 路 层 广播 帧 发 送 。 为 什么 ? 

284 如 果 使 用 我 们 的 ping 程 序 在 一 个 多 宿主 机 上 ping 所 有 主机 多 播 组 的 地 址 224.0.0.1, 将 会 发 生 什么 ? 
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数据 链 路 访问 





29.1 概述 


目前 大 多 数 操作 系统 都 为 应 用 程序 提供 访问 数据 链 路 层 的 强大 功能 。 这 种 功能 可 以 提供 如 
下 能 力 。 
e 能 够 监视 由 数据 链 路 层 接收 的 分 组 ， 使 得 诸如 tcpdump 之 类 的 程序 能 够 在 普通 计算 机 系 
统 上 运行 ， 而 无 需 使 用 专门 的 硬件 设备 来 监视 分 组 。 如 果 结 合 使 用 网 络 接 口 进 入 混杂 模 
X (promiscuous mode) 的 能 力 ， 那 么 应 用 程序 甚至 能 够 监视 本 地 电缆 上 流通 的 所 有 分 
组 ， 而 不 仅仅 是 以 程序 运行 所 在 主机 为 目的 地 的 分 组 。 


网 络 接口 进入 混杂 模式 的 能 力 在 日 益 普 及 的 交换 式 网 络 中 用 处 不 大 。 这 是 因为 交换 机 仅 
仅 把 单 播 、 多 播 或 广播 分 组 传递 到 数据 链 路 层 目 的 地 址 所 在 的 物理 端口 。 为 了 监视 流 经 所 有 
端口 或 某 些 端口 的 分 组 ， 监 视 端 口 必 须 配 置 成 接收 其 他 端口 的 分 组 流通 ， 这 种 行为 称 为 监视 
器 模式 (monitor mode ) 或 端口 镜像 (port mirroring) 。 注意， 许多 通常 被 你 认为 没有 交换 机 
的 存储 转发 能 力 的 设备 实际 上 也 具备 这 种 能 力 ， 壁 如 说 双 速 率 10/100 Mbit/s 集 线 器 通常 也 是 
一 个 双 端 口 的 交换 机 : 一 个 端口 上 连接 100 Mbits 系 统 ， 另 一 个 端口 上 连接 10 Mbit/s 系 统 。 


。 能 够 作为 普遍 应 用 进程 而 不 是 内 核 的 一 部 分 运行 某 些 程序 。 举 例 来 说 ，RARP 服 务 器 的 


大 多 数 Unix 版 本 是 普通 的 应 用 进程 ， 它 们 从 数据 链 路 读 入 RARP 请 求 ， 又 往 数据 链 路 写 


出 RARP 应 答 (RARP 请 求 和 应 答 都 不 是 IP 数 据 报 )。 

Unix 上 访问 数据 链 路 层 的 3 个 常用 方法 是 BSD 的 分 组 过 滤器 BPF、SVR4 的 数据 链 路 提供 者 
接口 DLPI 和 Linux 的 SocK_PACKET 接 口 。 我 们 首先 简要 介绍 这 3 个 数据 链 路 访问 接口 ， 然 后 讲 
解 1ibpcap 这 个 公开 可 得 的 分 组 捕获 函数 库 。 该 函数 库 适 用 于 所 有 这 3 个 接口 ， 使 用 它 可 以 编 
写 独 立 于 操作 系统 提供 的 实际 数据 链 路 访问 接口 的 程序 。 我 们 通过 开发 一 个 程序 来 讲解 该 函数 
BE, 该 程序 向 一 个 名 字 服 务 器 发 送 DNS 查 询 (我 们 自行 构造 这 些 UDP 数 据 报 并 往 一 个 原始 套 接 
字号 出 它们 )， 然 后 使 用 1ibpcap 读 入 来 自 该 名 字 服 务 器 的 应 答 ， 以 便 判 断 它 是 否 开启 了 UDP 
校 验 和 。 


29.2 BPF. BSD 分 组 过 滤器 


4.4BSD 以 及 源 自 Berkeley 的 许多 其 他 实现 都 支持 BSD 分 组 过 滤器 (BSD Packet Filter, BPF)。 
BPF 的 实现 在 TCPv2 第 31 章 中 讲解 。 BPF 的 历史 、BPF 伪 机 器 (pseudomachine) 的 描述 及 与 SunOS 
4.1.x 上 NIT 分 组 过 滤器 的 比较 参见 [McCanne and Jacobson 1993 ]. 

在 支持 BPF 的 系统 上 ， 每 个 数据 链 路 驱动 程序 都 在 发 送 一 个 分 组 之 前 或 在 接收 一 个 分 组 之 
后 调用 BPF， 如 图 29-1 所 示 。 
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发 出 的 分 组 的 副本 





图 29-1 使 用 BPF 截 获 分 组 


TCPv2 图 4-11 和 图 4-19 给 出 了 某 个 以 太 网 接口 驱动 程序 中 这 些 调用 的 例子 ,在 分 组 接收 之 后 
尽早 调用 BPF 以 及 在 分 组 发 送 之 前 尽 晚 调 用 BPF 的 原因 是 为 了 提供 精确 的 时 间 惟 。 
尽管 往 数据 链 路 中 安置 一 个 用 于 捕获 所 有 分 组 的 “龙头 ”并 不 困难 ，BPF 的 强大 威力 却 在 
于 它 的 过 滤 能 力 。 打 开 一 个 BPF 设 备 的 每 个 应 用 进程 可 以 装载 各 自 的 过 滤器 ， 这 个 过 滤器 随后 
由 BPF 应 用 于 每 个 分 组 。 有 些 过 滤器 比较 简单 (例如 “udp or tcp” 只 接收 UDP 或 TCP 分 组 )， 
不 过 更 复杂 的 过 小 器 可 以 检查 分 组 首部 某 些 字段 是 否 为 特定 值 。 举 例 来 说 ，TCPv3 第 14 章 中 使 
用 如 下 过 滤器 : 
tcp and port 80 and tcp[13:1] & 0x7 != 0 
达成 只 收集 去 往 或 来 自 端 口 80 的 设置 了 SYN、FIN 或 RST 标 志 的 TCP 分 节 ， 其 中 表达 式 
tcp[13:1] 指 代 从 TCP 首 部 开始 位 置 起 字 节 偏 移 量 为 13 那 个 位 置 始 的 1 字 节 值 。BPF 实 现 一 个 基 
于 寄存 器 的 过 滤器 机 器 ， 特 定 于 应 用 进程 的 过 滤器 就 通过 过 滤器 机 器 应 用 于 每 个 接收 分 组 。 尽 
管 可 以 直接 使 用 这 个 伪 机 器 的 机 器 语言 (在 BPF 手 册页 面 中 讲解 ) 编写 过 滤器 程序 ， 最 简单 的 
接口 却 是 使 用 我 们 将 在 29.7 节 讲解 的 pcap_compile 函 数 把 ASCII 字 符 串 (例如 刚才 给 出 的 以 rcp 
开头 的 那个 字符 串 ) 编译 成 BPF 伪 机 器 的 机 器 语言 。 
BPF 使 用 以 下 3 个 技术 来 降低 开销 。 
e BPF 过 滤 在 内 核 中 进行 ， 以 次 把 从 BPF 到 应 用 进程 的 数据 复制 量 减 少 到 最 小 。 这 种 从 内 
核 空 间 到 用 户 空 间 的 复制 开销 高 昂 。 要 是 每 个 分 组 都 如 此 复制 ，BPF 可 能 就 跟 不 上 快速 
的 数据 链 路 。 
e 由 BPF 传 递 到 应 用 进程 的 只 是 每 个 分 组 的 一 段 定 长 部 分 。 这 个 长 度 称 为 捕获 长 度 (capture 
length)， 也 称 为 快照 长 度 (snapshot length， 简 写 为 snaplen)。 大 多 数 应 用 进程 只 需要 分 
组 首部 而 不 需要 分 组 数据 。 这 个 技术 同样 减少 了 由 BPF 复 制 到 应 用 进程 的 数据 量 。 举 例 
来 说 ，tcpaump 默 认 把 该 值 设 置 为 96， 能 够 容纳 一 个 14 字 节 的 以 太 网 首部 、 一 个 40 字 节 
的 IPv6 首 部 、 一 个 20 字 节 的 TCP 首 部 以 及 22 字 节 的 数据 。 如 果 需 要 显示 来 自 其 他 协议 CRI 
如 说 DNS 和 NFS) 的 额外 信息 ， 用 户 就 得 在 运行 ccpdump 时 增 大 该 值 。 
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e BPF 为 每 个 应 用 进程 分 别 缓冲 数据 ， 只 有 当 缓冲 区 已 满 或 读 超时 (read timeout) 期 满 时 
该 缓冲 区 中 的 数据 才 复 制 到 应 用 进程 。 该 超时 值 可 由 应 用 进程 指定 。 例 如 tcpdump 把 它 
设置 为 1000ms，RARP 守 护 进 程 把 它 设 置 为 0 (因为 RARP 分 组 数量 极 少 ， 而 且 RARP 服 
务 器 需要 一 接收 请 求 就 发 送 应 答 )。 如 此 缓冲 的 目的 在 于 减少 系统 调用 的 次 数 。 尽 管 从 
BPF 复 制 到 应 用 进程 的 仍然 是 相同 数量 的 分 组 ， 但 是 每 次 系统 调用 都 有 一 定 的 开销 ， 
而 减少 系统 调用 次 数 总 能 降低 开销 。( 举 例 来 说 ，APUE 图 3-1 比 较 了 以 在 1 字 节 到 131072 
字 节 之 间 变 化 的 不 同 数据 块 大 小 读 一 个 给 定 文件 时 reaa 系 统 调用 的 开销 。) 

尽管 我 们 在 图 29-1 中 只 画 出 单个 缓冲 区 ，BPF 其 实 为 每 个 应 用 进程 维护 两 个 缓冲 区 ， 在 其 
中 一 个 缓冲 区 中 的 数据 被 复制 到 应 用 进程 期 间 ， 另 一 个 缓冲 区 被 用 于 装填 数据 。 这 就 是 标准 的 
XU ^t" (double buffering) KA. 

我 们 在 图 29-1 只 展示 了 BPF 的 分 组 接收 ， 包 括 由 数据 链 路 从 下 方 〈 网 络 ) 接收 的 分 组 和 由 
数据 链 路 从 上 方 (IP) 接收 的 分 组 。 应 用 进程 也 可 以 写 往 BPF， 致 使 分 组 通过 数据 链 路 往外 (向 
上 和 向 下 〉 发 送出 去 ， 不 过 大 多 数 应 用 进程 仅仅 读 自 BPF 而 己 。 没 有 理由 通过 写 往 BPF 发 送 IP 
数据 报 ， 因 为 LP_HDRINCL 套 接 字 选项 允许 我 们 写 出 任何 期 望 类 型 (包括 IP 首 部 在 内 〉 的 IP 数 据 
报 。( 我 们 将 在 26.7 节 给 出 如 此 写 出 IP 数 据 报 的 一 个 例子 。) 写 往 BPF 的 唯一 理由 是 为 了 自行 发 送 
不 是 IP 数 据 报 的 网 络 分 组 ， 例 如 RARP 守 护 进程 就 如 此 发 送 不 是 IP 数 据 报 的 RARP 应 答 。 

为 了 访问 BPF， 我 们 必须 打开 一 个 当前 关闭 着 的 BPF 设 备 。 举 例 来 说 ， 我 们 可 以 尝试 打开 
/dev/bpf0， 如 果 返 回 EBUSY 错 误 ， 那 就 尝试 打开 /dev/bpf1， 如 此 等 等 。 一 旦 打开 一 个 BPF 设 
备 ， 我 们 可 以 使 用 大 约 一 打 ioct1 命 令 来 设置 该 设备 的 特征 ， 包 括 : 装载 过 滤器 、 设 置 读 超 时 、 
设置 缓冲 区 大 小 、 往 该 BPF 设 备 附 接 某 个 数据 链 路 、 开 启 混杂 模式 ， 等 等 。 然 后 就 使 用 read 和 
write 执行 LO。 


SVR4 通 过 数据 链 路 提供 者 接口 (Datalink Provider Interface, DLPD 提供 数据 链 路 访问 。 
DLPI 是 一 个 由 AT&T 设 计 的 独立 于 协议 的 访问 数据 链 路 层 所 提供 服务 的 接口 [Unix International 
1991]。 其 访问 通过 发 送 和 接收 流 消息 (STREAMS message) 实施 。 

DLPI 有 两 种 打开 方式 : 一 种 方式 是 应 用 进程 先 打 开 一 个 统一 的 伪 设 备 ， 再 使 用 DLPI 的 
DL_ATTACH_REO 往 其 上 附 接 菜 个 数据 链 路 ( 即 网 络 接 口 ); 另 一 种 方式 是 应 用 进程 直接 打开 某 个 
网 络 接口 设备 (例如 1e0)。 无 论 以 哪 种 方式 打开 DLPI， 通 常 尚 需 为 提高 操作 效率 而 压 入 2 个 流 
模块 STREAMS module): 在 内 核 中 进行 分 组 过 滤 的 pfmod 模 块 和 为 应 用 进程 缓冲 数据 的 
bufmod 模 块 ， 如 图 29-2 所 示 。 

从 概念 上 说 , 这 两 个 模块 类 似 上 一 节 讲 解 的 BPF 开 销 降低 技术 : pfmod 支 持 使 用 伪 机 器 的 内 
核 中 过 滤 ，bufmod 则 通过 支持 捕获 长 度 和 读 超 时 减少 数据 量 和 系统 调用 次 数 。 

但 BPF 与 pfmod 两 者 在 过 滤器 所 支持 的 伪 机 器 类 型 上 存在 一 个 有 趣 的 差别 。BPF 过 滤器 使 用 
一 个 有 向 无 环 控制 流 图 (CFG)，pfmod 过 滤器 则 使 用 一 个 布尔 表达 式 树 。 前 者 自然 地 映射 成 寄 
存 器 型 机 器 代码 ， 后 者 自然 地 映射 成 堆栈 型 机 器 代码 [McCanne and Jacobson 1993 ]。 这 篇 论文 
指出 BPF 使 用 的 CFG 实 现 通常 比 pfmoa 使 用 的 布尔 表达 式 树 实现 快 3~20 倍 , 具体 取决 于 过 滤器 的 
复杂 程度 。 

另外 ，BPF 总 是 在 复制 分 组 之 前 做 出 过 滤 决 策 ， 以 省 却 复制 将 被 丢弃 的 分 组 。DLPI 则 因为 
与 pfmod 模 块 相 对 独立 而 可 能 不 得 不 增加 内 核 中 的 分 组 复制 次 数 ， 具 体 取 决 于 实现 。 
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Linux 先 后 有 两 个 从 数据 链 路 层 接收 分 组 的 方法 。 较 旧 的 方法 是 创建 类 型 为 SOCK_PACKET 
的 套 接 字 ， 这 个 方法 的 可 用 面 较 宽 ， 不 过 缺乏 灵活 性 。 较 新 的 方法 创建 协议 族 为 PF_PACKET 的 
套 接 字 ， 这 个 方法 引入 了 更 多 的 过 滤 和 性 能 特性 。 我 们 必须 有 足够 的 权限 才能 创建 这 两 种 套 接 
F 类似 原始 套 接 字 的 创建 )， 而 且 调 用 socket 的 第 三 个 参数 必须 是 指定 以 太 网 帧 类 型 的 某 个 
非 0 值 。 创 建 PF_PAcKET 套 接 字 时 ， 调 用 socket 的 第 二 个 参数 既 可 以 是 socK_pDGRAM， 表 示 扣 除 
链 路 层 首部 的 “者 熟 ”(cooked) 分 组 ， 也 可 以 是 socK_RAwW， 表 示 完 整 的 链 路 层 分 组 〈 以 太 网 
帧 )。sock_PACKET 套 接 字 只 返回 以 太 网 帧 。 举例 来 说 , 从 数据 链 路 接收 所 有 帧 应 如 下 创建 套 接 字 : 

fd = socket(PF PACKET, SOCK RAW, htons(ETH, P ALL)); /* 较 新 方法 */ 

或 
fd = socket(AF INET, SOCK PACKET, htons(ETH, P ALL)); /* 较 旧 方法 */ 
由 数据 链 路 接收 的 任何 协议 的 以 太 网 帧 将 返回 到 这 些 套 接 字 。 
如 果 只 想 捕获 IPv4 帧 ， 那 就 如 下 创建 套 接 字 : 
fd = socket(PF PACKET, SOCK RAW, htons(ETH P. IP)); /* 较 新 方法 */ 
或 
fd = socket(AF INET, SOCK PACKET, htons(ETH P IP)); /* 较 旧 方法 */ 
用 作 socket 调 用 第 三 个 参数 的 常 值 还 有 ETH_P_ARP、ETH_P_IPV6 等 。 
指定 这 个 协议 参数 为 某 个 ETH_P_xxx 常 值 是 在 告知 数据 链 路 应 该 把 由 它 接 收 的 帧 中 哪些 类 
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型 的 帧 传递 给 所 创建 的 套 接 字 。 如 果 数 据 链 路 支持 混杂 模式 〈 例 如 以 太 网 )， 那 么 需要 的 话 还 必 
须 把 设备 投入 混杂 模式 。 对 于 PF_PaAcKET 套 接 字 ， 把 一 个 网 络 接口 投入 混杂 模式 通过 设置 
PACKET_ADD_MEMBERSHIP 套 接 字 选项 完成 ， 在 作为 setsockopt 第 四 个 参数 传递 的 packet_ 
mreq 结 构 中 需 指定 网 络 接口 和 值 为 PACKET_MR_PROMISC 的 行为 。 对 于 SOCK_PACKET 套 接 字 ， 投 
入 混杂 模式 通过 使 用 sIoCGIFFLAGS ioct1 获 取 标 志 ， 设 置 IFF_PROMISC 标 志 ， 再 使 用 
SITOCSIFFLAGS 存 储 标 志 。 不 幸 的 是 ， 若 采用 此 方法 ， 多 路 混杂 监听 程序 可 能 互相 和 干扰， 而且 设 
计 得 不 好 的 程序 可 能 在 退出 后 还 保持 着 混杂 模式 。 
Linux 的 数据 链 路 访问 方法 相 比 BPF 和 DLPI 存 在 如 下 差别 。 
e Linux 方 法 不 提供 内 核 缓 冲 ， 而 且 只 有 较 新 的 方法 才能 提供 内 核 过 滤 〈 通 过 设置 
SO_ATTACH_FILTER 套 接 字 选项 安装 )。 尽 管 这 些 套 接 字 有 普通 的 套 接 字 接收 缓冲 区 ， 但 
是 多 个 帧 不 能 缓冲 在 一 起 由 单个 读 入 操作 一 次 性 地 传递 给 应 用 进程 。 这 么 一 来 势必 增长 
从 内 核 到 应 用 进程 复制 大 量 数据 所 涉及 的 开销 。 
e Linux 较 旧 的 方法 不 提供 针对 设备 的 过 滤 。( 较 新 的 方法 可 以 通过 调用 bina 与 某 个 设备 
KK.) 如 果 调 用 socket 时 指定 了 ETH_P_IP， 那 么 来 自任 何 设备 (例如 以 太 网 、PPP 链 
路 、SLIP 链 路 和 回馈 设备 ) 的 所 有 IPv4 分 组 都 被 传递 到 所 创建 的 套 接 字 。recvfrom 将 返 
回 一 个 通用 套 接 字 地 址 结构 ， 其 中 的 sa_dGata 成 员 含有 设备 名 字 ( 例 如 eth0)。 应 用 进程 
然后 必须 自行 丢弃 来 自任 何 非 所 关注 设备 的 数据 。 这 里 的 问题 仍然 是 可 能 会 有 太 多 的 数 
据 返 回 到 应 用 进程 ， 从 而 妨碍 对 于 高 速 网 络 的 监视 。 
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libpcap 是 访问 操作 系统 所 提供 的 分 组 捕获 机 制 的 分 组 捕获 函数 库 , 它 是 与 实现 无 关 的 。 
目前 它 只 支持 分 组 的 读 入 〈 当 然 只 需 往 该 函数 库 中 增加 一 些 代码 行 就 可 以 让 调用 者 写 出 数据 链 
路 分 组 )。 下 一 节 讲 解 的 libnet 函 数 库 不 仅 支持 写 出 数据 链 路 分 组 ， 而 且 可 以 构造 任意 协议 的 
分 组 。 

libpcap 目 前 支持 源 自 Berkeley 内 核 中 的 BPF、Solaris 2.x 和 HP-UX 中 的 DLPI、SunOS 4.1.x 
中 的 NIT、Linux 的 Sock_PACKET 套 接 字 和 PF_PACKET 套 接 字 ,， 以 及 其 他 若干 操作 系统 。tcpdump 
就 使 用 该 函数 库 。1ibpcap 由 大 约 25 个 函数 组 成 ， 不 过 我 们 不 准备 单独 讲解 这 些 函 数 ， 而 是 在 
再 下 一 节 以 一 个 完整 的 例子 给 出 其 中 常用 函数 的 实际 用 法 。 所 有 库 函 数 均 以 pcap_ 前缀 打头 。 
pcap 手 册页 面 详细 讲解 了 这 些 函 数 。 


该 函数 库 可 以 从 http://www.tcpdump.org/ 公 开 获 取 。 





29.6 libnet. 分 组 构造 与 输出 函数 库 


libnet 函 数 库 提供 构造 任意 协议 的 分 组 并 将 其 输出 到 网 络 中 的 接口 。 它 以 与 实现 无 关 的 方 
式 提供 原始 套 接 字 访 问 方 式 和 数据 链 路 访问 方式 。 

libnet 隐 藏 了 构造 了 P、UDP 和 TCP 首 部 的 许多 细节 ， 并 提供 简单 且 便 于 移植 的 数据 链 路 和 
原始 套 接 字 写 出 访问 接口 。 与 libpcap-- 样 ，1libnet 也 由 许多 函数 组 成 。 我 们 将 在 下 一 节 给 出 
的 例子 中 展示 其 中 若干 个 函数 的 用 法 ， 并 与 直接 使 用 原始 套 接 字 所 需 的 代码 相 比 较 。1ibnet 的 
所 有 库 函数 均 以 libnet_ 前 缀 打头 。1libnet 手 册页 面 和 在 线 手册 详细 讲解 了 这 些 函 数 。 
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libnet ALÈ 9T vA A http://www.packetfactory.net/libnet/Z-7F RR, 在 线 手 册 是 http://www. 
packetfactory.net/libnet/manual/。 编 写本 书 时 唯一 可 用 的 手册 是 不 再 支持 的 版 本 1.0 的 ; 受 支持 
的 版 本 1.1 在 API 上 变动 较 大 。 本 例子 是 用 版 本 1.1 的 API。 





我 们 现在 开发 一 个 例子 程序 ， 它 向 一 个 名 字 服 务 器 发 送 含有 某 个 DNS 查 询 的 UDP 数 据 报 ， 
然后 使 用 分 组 捕获 函数 库 读 入 应 答 。 本 例子 程序 的 目的 是 确定 这 个 名 字 服 务 器 是 否 计算 UDP 校 
验 和 。 对 于 IPv4，UDP 校 验 和 的 计算 是 可 选 的 。 如 今 大 多 数 系统 默认 就 开启 校 验 和 ， 不 过 较 老 
的 系统 〈 尤 如 SunOS 4.1.x) 默认 禁止 校 验 和 。 当 今 所 有 系统 (特别 是 运行 名 字 服 务 器 的 系统 ) 
都 应 该 总 是 开启 UDP 校 验 和 ， 耕 则 受 损 的 数据 报 有 可 能 破坏 服务 器 的 数据 库 。 


开启 和 禁止 UDP 校 验 和 通常 是 基于 系统 范围 设置 的 ， 如 TCPv1 附 录 BE 所 述 。 


我 们 将 自行 构造 UDP 数据 报 ( 即 DNS 查 询 )， 并 把 它 写 出 到 一 个 原始 套 接 字 。 这 个 查询 使 用 
普通 的 UDP 套 接 字 就 可 以 发 送 , 不 过 我 们 想 展示 如 何 使 用 IP_HDRINCL 套 接 字 选项 构造 一 个 完整 
的 也 数据 报 。 

男 一 方面 ， 我 们 无 法 在 从 普通 UDP 套 接 字 读 入 时 获取 UDP 校 验 和 ， 使 用 原始 套 接 字 也 无 法 
读 入 UDP 或 TCP 分 组 (28.4 节 )。 因 此 我 们 必须 使 用 分 组 捕获 机 制 获取 含有 名 字 服 务 器 的 应 答 的 
完整 UDP 数 据 报 。 

我 们 还 检查 所 获取 UDP 首部 中 的 校 验 和 字段 ， 如 果 其 值 为 0， 那 么 该 名 字 服 务 器 没有 开启 
UDP 校 验 和 。 我 们 还 给 出 使 用 1ibnet 编 写 的 相同 程序 。 

图 29-3 汇 总 了 本 程序 的 的 操作 。 


- 


UDP 数据 报 〈 名 字 服务 器 应 答 ) 
图 29-3 ”检查 某 个 名 字 服 务 器 是 否 开启 UDP 校 验 和 的 应 用 程序 


我 们 把 自行 构造 的 UDP 数据 报 写 出 到 原始 套 接 字 ， 然 后 使 用 1ibpcap 读 回 其 应 答 。 注 意 ， 
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UDP 模块 也 接收 到 这 个 来 自 名 字 服 务 器 的 应 答 ， 并 将 响应 以 一 个 ICMP 端 口 不 可 达 错 误 ， 因 为 
UDP 模块 根本 不 知道 我 们 为 自行 构造 的 UDP 数据 报 选用 的 源 端口 号 。 名 字 服 务 器 将 忽略 这 个 
ICMP 错 误 。 我 们 同时 指出 ， 使 用 TCP 编 写 一 个 如 此 形式 的 测试 程序 比较 困难 ， 因 为 尽管 我 们 很 
容易 把 自行 构造 的 TCP 分 节 写 出 到 网 络 ， 但 是 对 于 我 们 如 此 产生 的 TCP 分 节 的 任何 应 答 却 通常 
导致 我 们 的 TCP 模 块 响应 以 一 个 RST， 结 果 是 连 三 路 握手 都 完成 不 了 。 


绕 过 这 个 难题 的 方法 之 一 是 以 属于 所 连接 子 网 的 某 个 当前 未 被 使 用 的 于 地 址 为 源 地 址 发 
送 TCP 分 节 ， 并 且 事 先 在 发 送 主 机 上 为 这 个 新 IP 地 址 增加 一 个 ARP 表 项 ， 使 得 发 送 主机 能 够 
回答 对 于 这 个 新 地 址 的 ARP 请 求 ， 但 是 不 把 这 个 新 IP 地 址 作为 别名 地 址 配置 在 发 送 主机 上 。， 
这 将 导致 发 送 主 机 上 的 IP 协 议 栈 丢弃 所 接收 的 目的 地 址 为 这 个 新 地 址 的 分 组 ， 前 提 是 发 送 主 
机 并 不 用 作 路 由 器 。 


图 29-4 是 构成 本 程序 的 函数 的 汇总 。 





调用 : 
pcap lookupdev 
pcap open live 
pcap lookupnet 
pcap compile 
pcap setfilter 
pcap datalink 













( 见 图 29-17) 


图 29-4 ”udpcksum 程 序 中 的 函数 汇总 


图 29-5 给 出 头 文件 udpcksum.h， 它 包含 我 们 的 基本 头 文件 unp .h 以 及 访问 耻 和 UDP 分 组 首 
部 的 结构 定义 所 需 的 各 个 系统 头 文件 。 


udpcksum/udpcksum.h 
1 #include "unp.h" 
2 #include «pcap.h» 
3 #include <netinet/in_systm.h> /* required for ip.h */ 
4 #include <netinet/in.h> 
5 #include <netinet/ip.h> 
6 #include <netinet/ip_var.h> 
7 finclude «netinet/udp.h» 
8 #include «netinet/udp var.h» 
9 include «net/if.h» 
10 #include «netinet/if ether.h» 
11 #define TTL OUT 64 /* outgoing TTL */ 
12 /* declare global variables */ 
13 extern struct sockaddr  *dest, *local; 
14 extern socklen t destlen, locallen; 


15 extern int datalink; 
16 extern char *device; 


图 29-5 uapcksum.h 头 文件 
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extern pcap t  *pd; 
extern int  rawfd; 
extern int snaplen; 
extern int  verbose; 
extern int  zerosum; 


/* function prototypes */ 





—udpcksum/udpcksum.h 


void cleanup(int); 
char *next pcap(int *); 
void open, output (void); 
void open_pcan (void); 
void send d^s yiery (void); 
void test_ucylvoid) ; 
void udp w-i.-(char *, int); 
struct udpiphdr *u?^p resd(void); 
图 29-5 (4D 


3-10 ”处理 IP 和 UDL 首 部 字段 需要 额外 的 网 际 网 头 文件 。 
定义 一 些 全 局 变量 和 相关 函数 的 原型 。 


11~29 


#include "udpcksum.h" 


图 29-6 给 出 main 函 数 的 第 一 部 分 。 


/* DefinE global variables */ 


struct sockaddr *dest, *local; 
struct sockaddr in locallookup; 


Socklen t destlen, locallen; 

int datalink; p” 
char *device; /* 
pcap t *pd; /* 
int rawfd; /* 
int snaplen - 200; /* 
int verbose; 

int zerosum; /* 


Static void usage(const char *); 


int 
main(int argc, char *argv[]) 
{ 
int Cs 
char *ptr, 
struct addrinfo *aip; 


lopt=0; 


localname [1024], 


from pcap datalink(), 
pcap device */ 
packet capture struct pointer */ 
raw socket to write on */ 

amount of data to capture */ 


send UDP query with no checksum */ 


*localport; 


图 29-6 maine: 定义 
图 29-7 给 出 main 函 数 的 下 一 部 分 ， 它 处 理 命 令 行 参 数 。 


处 理 命令 行 参数 


udpcksum/main.c 


in «net/bpf.h» */ 


udpcksum/main.c 


20-25 调用 getopt 处 理 命令 行 参数 。-0 选 项 即 要 求 不 设置 UDP 校 验 和 就 发 送 UDP 查 询 ， 以 


26-28 


便 查看 服务 器 对 它 的 处 理 是 否 不 同 于 对 设置 了 校 验 和 的 数据 报 的 处 理 。 
-i 选 项 用 于 指定 接收 服务 器 的 应 答 的 接口 。 如 果 这 个 接口 未 曾 指定 ， 分 组 捕获 函数 


库 将 会 选择 一 个 ， 不 过 选 定 的 接口 在 多 宿主 机 上 也 许 不 正确 。 从 分 组 捕获 设备 读 入 
与 从 普通 套 接 字 读 入 的 差别 之 一 就 体现 在 此 : 使 用 套 接 字 的 话 我 们 可 以 通 配 本 地 地 
址 ， 从 而 允许 我 们 接收 到 达 任 意 接口 的 分 组 ， 然 而 如 果 使 用 分 组 捕获 设备 ， 我 们 就 
只 能 在 单个 接口 上 接收 到 达 的 分 组 。 
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udpcksum/main.c 

20 opterr - 0; /* don't want getopt() writing to stderr */ 
21 while ( (c = getopt (argc, argv, "Oi:l:v")) !- -1) ( 
22 switch (c) ( 
23 case '0': 
24 zerosum - 1; 
25 break; 
26 case 'i': 
27 device - optarg; /* pcap device */ 
28 break; 
29 case 'l': /* local IP address and port #: a.b.c.d.p */ 
30 if ( (ptr - strrchr(optarg, '.')) -- NULL) 
31 usage("invalid -1 option"); 
32 *ptr++ = 0; /* null replaces final period */ 
33 localport = ptr; /* service name or port number */ 
34 strncpy(localname, optarg, sizeof (localname) ); 
35 lopt = 1; 
36 break; 
37 case 'v': 
38 verbose = 1; 
39 break; 
40 case '?': 
41 usage ("unrecognized option"); 
42 } 
43 } 

一 一 ——— udpcksum/main.c 


图 29-7 main: 处 理 命令 行 参数 


我 们 指出 Linux 的 SOCK_PACKET 方 法 并 没有 把 它 的 数据 链 路 捕获 限定 在 单个 设备 . 尽管 如 
此 ，1ibpcap 却 基于 其 默认 设置 或 我 们 的 -i 选项 提供 限定 接口 形式 的 过 滤 。 


29-36 ”-1 选 项 用 于 指定 源 IP 地 址 和 源 端 口号 。 在 本 选项 的 参数 中 ， 端 口号 (或 服务 名 ) 是 其 

中 最 后 一 个 点 号 之 后 的 部 分 ， 源 耳 地 址 是 其 中 最 后 一 个 点 号 之 前 的 部 分 。 
图 29-8 给 出 main 函 数 的 最 后 一 部 分 。 

处 理 目 的 主机 名 和 端口 

46-49 ”验证 剩余 命令 行 参数 恰好 是 两 个 : 运行 DNS 服务 器 的 目的 主机 名 或 耳 地 址 ， 以 及 服务 
器 的 服务 名 (domain) 或 端口 号 (53)。 调 用 host_serv 把 这 两 个 参数 转换 成 一 个 套 接 
字 地 址 结构 ， 并 把 指向 该 结构 的 指针 存 入 dest。 

处 理 本 地 主机 名 和 端口 

50-74 ”如 果 本 地 主机 名 或 IP 地 址 ) 和 端口 已 经 作为 命令 行 -1 选 项 的 参数 指定 ， 那 就 对 它们 
执行 同样 的 转换 ,并 把 指向 转换 出 的 套 接 字 地 址 结构 的 指针 存 入 iocal。 否则 我 们 通过 
把 一 个 UDP 套 接 字 连接 到 目的 地 确定 由 内 核 选 定 的 本 地 IP 地 址 和 临时 端口 号 ， 存 放 在 
由 local 指 向 的 套 接 字 地 址 结构 中 。 既 然 我 们 将 自行 构造 DNS 查 询 的 他 首部 和 UDP 首 
部 ， 在 写 出 该 UDP 数 据 报 之 前 我 们 必须 知道 源 IP 地 址 。 我 们 不 能 让 它 保留 0 值 以 便 由 人 
模块 为 它 选择 实际 值 ， 因 为 它 是 UDP 伪 首部 〈 我 们 稍 后 讲解 ) 的 一 部 分 ， 而 UDP 校 验 
和 计算 必须 使 用 伪 首 部 。 
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udpcksum/main.c 
44 if (optind !- argc-2) 
45 usage("missing «host» and/or «serv»"); 
46 /* convert destination name and service */ 
47 aip = Host, serv(argv[optind], argv[optind«1], AF, INET, SOCK, DGRAM); 
48 dest = aip->ai_addr; /* don't freeaddrinfo() */ 
49 destlen - aip-»ai addrlen; 
50 /* 
51 * Need local IP address for source IP address for UDP datagrams. 
52 * Can't specify 0 and let IP choose, as we need to know it for 
53 * the pseudoheader to calculate the UDP checksum. 
54 * If -i option supplied, then use those values; otherwise, 
55 * connect a UDP socket to the destination to determine tbe right 
56 * source address. 
57 sf 
58 if (lopt) { 
59 /* convert local name and service */ 
60 aip = Host_serv(localname, localport, AF_INET, SOCK_DGRAM) ; 
61 local = aip->ai_addr; /* don't freeaddrinfo() */ 
62 locallen = aip-»ai, addrlen; 
63 } else { 
64 int S; 
65 s = Socket(AF INET, SOCK_DGRAM, 0); 
66 Connect (s, dest, destlen); 
67 /* kernel chooses correct local address for dest */ 
68 locallen = sizeof (locallookup); 
69 local = (struct sockaddr *)&locallookup; 
70 Getsockname(s, local, &locallen); 
71 if (locallookup.sin addr.s addr -- htonl(INADDR ANY)) 
72 err_quit ("Can't determine local address - use -1Mn"); 
73 close(s); 
74 ) 
75 open output () ; /* open output, either raw socket or libnet */ 
76 open pcap(); /* open packet capture device */ 
77 setuid(getuid()); /* don't need superuser privileges anymore */ 
78 Signal (SIGTERM, cleanup); 
79 Signal (SIGINT, cleanup); 
80 Signal (SIGHUP, cleanup); 
81 test_udp(); 
82 cleanup (0); 
83 } 
udpcksum/main.c 


图 29-8 main 函数 :转换 主机 名 和 服务 名 ， 创 建 套 接 字 


创建 原始 套 接 字 并 打开 分 组 捕获 设备 

75-76 “调用 open_output 函 数 创建 一 个 原始 套 接 字 并 开启 IP_HDRINCL 套 接 字 选 项 ， 我 们 于 是 
可 以 往 这 个 套 接 字 写 出 包括 IP 首 部 在 内 的 完整 卫 数 据 报 。open_output 还 有 一 个 使 用 
libnet 实 现 的 版 本 。 然 后 调用 我 们 接着 给 出 的 open_pcap 函 数 打 开 分 组 捕获 设备 。 

改变 权限 并 建立 信号 处 理 函 数 

77-80 ”创建 原始 套 接 字 需 要 超级 用 户 特 权 。 打 开 分 组 捕获 设备 通常 同样 需要 超级 用 户 特权 ， 
不 过 具体 取决 于 实现 。 辟 如 说 对 于 BPF， 管 理 员 可 以 根据 系统 所 需 设置 /dev/bpf 设 备 
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的 访问 权限 。 既 然 已 经 完成 特权 操作 ， 我 们 于 是 放弃 这 个 额外 的 特权 ， 假 定 这 个 特权 
确实 是 因为 程序 文件 具有 setuid 到 root 的 属性 而 额外 获取 的 。 具有 超级 用 户 特权 的 进 
程 调用 setuia 将 把 它 的 实际 用 户 ID、 有 效用 户 了 DD 以 及 保存 的 重 设 用 户 ID (set-user-ID) 
都 设置 为 当前 的 实际 用 户 ID (getuig 的 返回 值 )。 为 了 防备 用 户 在 程序 运行 完 之 前 强 
行 终止 它 ， 我 们 要 建立 一 些 信号 处 理 函 数 。 

执行 测试 与 清理 

81-82 test udpPAXX (29-10) 进行 本 程序 的 测试 任务 后 返回 。cleanup 函 数 〈 图 29-18) 
显示 来 自分 组 捕获 函数 库 的 统计 结果 后 终止 进程 。 


图 29-9 给 出 open_pcap 函 数 ， 它 由 main 函 数 调用 以 打开 分 组 捕获 设备 。 
-一 一 一-Udpcksunpcapc 


1 #include "udpcksum.h" 

2 #define CMD "udp and src host %s and src port %d" 

3 void 

4 open_pcap (void) 

5 t 

6 uint32 t localnet, netmask; 

7 char cmd[MAXLINE], errbuf[PCAP ERRBUF SIZE], 

8 Strl[(INET ADDRSTRLEN], str2[INET_ADDRSTRLEN] ; 

9 struct bpf program fcode; 

10 if (device -- NULL) ( 

11 if ( (device - pcap lookupdev(errbuf)) -- NULL) 

12 err guit("pcap lookup: $s", errbuf); 

13 } 

14 printf("device = s\n", device); 

15 /* hardcode: promisc=0, to_ms=500 */ 

16 if ( (pd = pcap open live(device, snaplen, 0, 500, errbuf)) == NULL) 
17 err quit("pcap open live: %s", errbuf); 

18 if (pcap lookupnet(device, &localnet, &netmask, errbuf) < 0) 
19 err quit("pcap lookupnet: $s", errbuf); 

20 if (verbose) 

21 printf("localnet = $s, netmask = %s\n", 

22 Inet ntop(AF INET, &localnet, strl, sizeof(str1)), 
23 Inet ntop(AF INET, &netmask, str2, sizeof(str2))); 
24 snprintf(cmd, sizeof(cmd), CMD, 

25 Sock ntop host(dest, destlen), 

26 ntohs (sock_get_port (dest, destlen))); 

27 if (verbose) 

28 printf("cmd = ts\n", cmd); 

29 if (pcap_compile(pd, &fcode, cmd, 0, netmask) « 0) 

30 err quit("pcap compile: %s", pcap_geterr (pd) ); 

31 if (pcap setfilter(pd, &fcode) « 0) 

32 err quit("pcap setfilter: $s", pcap geterr(pd)); 

33 if ( (datalink = pcap datalink(pd)) < 0) 

34 err quit("pcap datalink: $s", pcap geterr(pd)); 

35 if (verbose) 

36 printf ("datalink = %d\n", datalink); 

37 ) 


$$$ ee 
图 29-9 open_pcap 函 数 : 打开 并 初始 化 分 组 捕获 设备 
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选择 分 组 捕获 设备 

10-14 ”如 果 分 组 捕获 设备 未 曾 指 定 ( 通 过 -i 命令 行 选项 )， 那 就 调用 pcap_1ookupdev 函 数 选 
择 一 个 设备 。 该 函数 发 出 STocGIFCONF ioct1 命 令 选择 索引 号 最 小 的 在 工 ( 即 UP 状态 ) 
设备 ， 不 过 环 回 接口 除外 。 许 多 pcap 库 函数 在 出 错时 填写 一 个 出 错 消息 串 。 传 递 给 
pcap_lookupdev 的 唯一 参数 就 是 一 个 用 于 填写 出 错 消息 串 的 字符 数组 。 

打开 设备 

15-17 ”调用 pcap_open_live 打 开 这 个 设备 。 函 数 名 中 的 “live” 表 明 所 打开 的 是 一 个 真实 的 
设备 ， 而 不 是 一 个 含有 先前 保存 之 分 组 的 “save” 文 件 。 该 函数 的 第 一 个 参数 是 设备 
名 ,第 二 个 参数 是 每 个 分 组 的 保存 字 节 数 (snaplen， 在 图 29-6 中 被 初始 化 为 200)， 第 
三 个 参数 是 混杂 标志 ， 第 四 个 参数 是 以 毫秒 为 单位 的 超时 值 ， 第 五 个 参数 是 指向 某 个 
用 于 返回 出 错 消息 串 的 字符 数组 的 指针 。 
如 果 设 置 了 混杂 标志 ， 网 络 接口 就 被 投入 混杂 模式 ， 导 致 它 接 收 在 电缆 上 流 经 的 所 有 
分 组 。 对 于 tcpdaump 这 是 通常 的 模式 。 然 而 对 于 我 们 的 例子 ， 来 自 DNS 服务 器 的 应 答 
将 被 发 送 到 DNS 查询 的 发 送 主机 《〈 即 运行 本 程序 的 主机 )， 因 而 无 需 设 置 混杂 标志 。 
超时 参数 指 的 是 读 超时 。 要 是 每 收 到 一 个 分 组 就 让 设备 把 该 分 组 返 送 到 应 用 进程 ， 那 
会 引起 从 内 核 到 应 用 进程 的 大 量 个 体 分 组 复制 ， 因 而 效率 可 能 比较 低 。1ibpcap 仅 当 
设备 的 读 缓冲 区 被 填 满 或 读 超 时 发 生 时 才 返 送 分 组 。 如果 把 超时 值 设置 为 0， 那 么 每 个 
分 组 -- 经 接收 就 被 返 送 。 

获取 网 络 地 址 与 子 网 掩 码 

18-23 ”pcap_lookupnet 返 回 分 组 捕获 设备 的 网 络 地 址 和 子 网 掩 码 。 我 们 接 下 去 调用 pcap_ 
compile 时 必须 指定 这 个 子 网 掩 码 , 因为 分 组 过 滤器 需要 拿 它 来 确定 -- 个 让 地 址 是 否 为 
一 个 子 网 定向 广播 地 址 。 

24-30 pcap_compile 把 我 们 在 cma 字 符 数组 中 构造 的 过 滤器 字符 串 编译 成 一 个 过 滤器 程序 ， 
存放 在 fcode 中 。 这 个 过 滤器 将 选择 我 们 希望 接收 的 分 组 。 

装载 过 滤器 程序 

31-32 pcap_setfilter 把 我 们 刚 编译 出 来 的 过 滤器 程序 装载 到 分 组 捕获 设备 , 同时 引发 对 我 
们 用 该 过 滤器 选取 的 分 组 的 捕获 。 

确定 数据 链 路 类 型 

33-36 ”pcap_datalink 返 回 分 组 捕获 设备 的 数据 链 路 类 型 。 当 接收 分 组 时 我 们 需要 该 值 来 确 
定位 于 每 个 所 读 入 分 组 开始 处 的 数据 链 路 首部 的 大 小 (图 29-15)。 

调用 open_pcap 之 后 main 国 数 接着 调用 如 图 29-10 所 示 的 test_udp。 该 函数 发 送 一 个 DNS 
查询 ， 并 读 入 服务 器 的 应 答 。 
volatile 变 量 
15 ”我 们 希望 两 个 自动 变量 nsent 和 timeout 在 从 信号 处 理 函 数 siglongjmp 到 本 函数 之 后 

保持 它们 的 值 不 变 。 具 体 实现 允许 在 siglongjmp 之 后 把 自动 变量 恢复 成 调用 
sigsetjmp 时 刻 的 值 (APUE 第 178 页 ?)， 然而 给 自动 变量 加 上 volatile 限 定 词 就 能 防 
止 它们 被 恢复 成 初始 值 。 


名 此 处 为 APUE 第 1 版 英文 原版 书 的 页 码 ， 第 2 版 英文 原版 书 为 第 201 页 ， 第 2 版 中 文 版 为 第 163 一 164 页 。 一 一 编者 注 
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建立 信号 处 理 函 数 和 跳 转 缓冲 区 

17-18 ”调用 signal 建 立 SIGALRM 信 号 的 处 理 函 数 ， 再 调用 sigsetjmp 为 siglongjmp 准 备 一 个 
跳 转 缓冲 区 。(APUE 的 10.15 节 详细 讲解 了 这 两 个 函数 。) 传 递 给 sigsetjmp 的 第 二 个 参 
数 为 1 是 在 告知 该 函数 保存 当前 信号 掩 码 ， 因 为 我 们 将 从 信号 处 理 函 数 中 调用 siglongjmp。 








全 udpcksum/udpcksum.c 
12 void 
13 test udp(void) 
14 ( 
15 volatile int nsent - 0, timeout - 3; 
16 Struct udpiphdr *ui; 
17 Signal(SIGALRM, sig alrm); 
18 if (sigsetjmp(impbuf, 1)) ( 
19 if (nsent »- 3) 
20 err quit("no response"); 
21 printf("timeout Mn"); 
22 timeout *- 2; /* exponential backoff: 3, 6, 12 */ 
23 ) 
24 canjump = 1; /* siglongjmp is now OK */ 
25 send dns query(); 
26 nsent++; 
27 alarm(timeout) ; 
28 ui = udp read(); 
29 canjump = 0; 
30 alarm(0); 
31 if (ui->ui_sum == 0) 
32 printf("UDP checksums off\n"); 
33 else 
34 printf ("UDP checksums on\n"); 
35 if (verbose) 
36 printf ("received UDP checksum = %x\n", ntohs(ui-»ui, sum)); 
37 ] 
- — dpcksum/udpcksum.c 
图 29-10 test_udp 函 数 : 发 送 DNS 查询 并 读 取 应 答 
处 理 siglongjmp 


19-23 ”这 段 代码 仅 当 siglongjmp 从 我 们 的 信和 喘 处 理 函 数 中 调用 之 后 才 被 执行 。 如 此 情形 表明 
发 生 了 超时 : 我 们 发 送 了 一 个 请 求 , 但 是 一 直 没 有 收 到 任何 应 答 。 如 果 我 们 已 发 送 了 3 
个 请 求 ， 那 就 终止 进程 。 否则 显示 一 条 消息 并 倍增 超时 值 。 这 就 是 我 们 在 22.5 节 讲解 过 
的 指数 回 退 (exponential backoff)。 首 次 超时 值 为 3 秒 钟 ， 然 后 依次 是 6 秒 钟 和 12 秒 钟 。 
我 们 在 本 例子 中 使 用 sigsetjmp 和 siglongjmp, 而 不 是 简单 地 捕获 EINTR (如 图 14-1)， 
其 原因 在 于 分 组 捕获 函数 库 的 读 函 数 ( 由 我 们 的 udp_reaG 函 数 调用 ) 在 read 操 作 返 回 
EINTR 错 误 时 将 重新 启动 该 操作 。 婚 然 我 们 不 想 为 了 返回 BINTR 错 误 而 修改 这 些 库 函 
数 ， 唯 一 的 解决 办 法 就 是 捕获 SITGALRM 信 和 号 并 执行 一 个 非 本 地 的 长 跳 转 ， 让 控制 返回 
到 我 们 的 代码 ， 而 不 是 信号 函数 执行 完毕 仍然 返回 到 函数 库 代 码 。 

发 送 DNS 查询 并 读 入 应 答 

25-30 send dns queryPÉ*& ( 129-12) 用 于 向 一 个 名 字 服 务 器 发 送 一 个 DNS 查 询 , udp_read 
函数 〈 图 29-15) 用 于 读 入 应 答 。 在 读 入 应 答 之 前 我 们 调用 alarm 以 防止 读 操作 永久 阻 
塞 。 当 所 指定 的 超时 期 满 时 ， 内 核 将 产生 sIGALRM 信 号 ， 使 我 们 的 信和 号 处 理 函数 调用 


siglongjmp. 
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检查 收 到 的 UDP 分 组 的 校 验 和 
31-36 如 果 所 接收 的 UDP 校 验 和 为 0， 那 么 名 字 服 务 器 未 曾 计算 并 发 送 校 验 和 。 


图 29-11 给 出 我 们 的 信号 处 理 程序 sig_alrm， 它 处 理 STGaLRM 信 和 号 。 





udpcksum/udpcksum.c 
1 #include *"udpcksum.h" 
2 #include «setjmp.h» 
3 static sigjmp buf jmpbuf; 
4 static int canjump; 
5 void 
6 sig alrm(int signo) 
3t 
8 if (canjump -- 0) 
9 return; 
10 siglongjmp(jmpbuf, 1); 
11 ) 
udpcksum/udpcksum.c 
图 29-11 sig alrmbÁ XKt: 处 理 STGALRM 信 和 号 
8-10 ”canjump 标 志 是 在 图 29-10 中 跳 转 缓冲 区 被 初始 化 之 后 设置 的 , 并 在 读 入 应 答 之 后 清除 。 
我 们 在 该 标志 已 经 设置 的 前 提 下 调用 siglongjmp， 致 使 控制 流 变 成 仿佛 图 29-10 中 的 
sigsetjmp 返 回 了 值 1。 
803 图 29-12 给 出 send_dns_query 函 数 ， 它 构造 了 一 个 DNS 查 询 ， 并 通过 原始 套 接 字 把 该 UDP 
数据 报 发 送 给 名 字 服 务 器 。 
uta ZEE udpcksum/senddnsquery-raw.c 
6 void 
7 send dns query (void) 
8 { 
9 size_t nbytes; 
10 char “buf, *ptr; 
11 buf = Malloc(sizeof(struct udpiphdr) + 100); 
12 ptr = buf + sizeof(struct udpiphdr); /* leave room for IP/UDP headers */ 
13 *((uint16 t *) ptr) = htons(1234); /* identification */ 
14 ptr += 2; 
15 *((uintl6 t *) ptr) = htons(0x0100); /* flags: recursion desired */ 
16 ptr += 2; 
17 *((uintl6 t *) ptr) = htons(1); /* # questions */ 
18 ptr «- 2; 
19 *((uintl6 t *) ptr) = 0; /* # answer RRs */ 
20 ptr += 2; 
21 *((uintl6 t *) ptr) = 0; /* # authority RRs */ 
22 ptr += 2; 
23 *((uint16 t *) ptr) = 0; /* # additional RRs */ 
24 ptr += 2; 
25 memcpy (ptr, "\00la\014root-servers\003net\000", 20); 
26 ptr += 20; 
27 *((uintl6_t *) ptr) = htons(1); /* query type = A */ 
28 ptr += 2; 
29 *((uintl6 t *) ptr) = htons(1); /* query class = 1 (IP addr) */ 
30 ptr += 2; 
31 nbytes = (ptr - buf) - sizeof(struct udpiphdr) ; 
32 udp write(buf, nbytes); 
33 if (verbose) 
34 printf("sent: $d bytes of data\n", nbytes); 
35 } 
udpcksum/senddnsquery-raw.c 





图 29-12 send_dns_queryMi#: 向 DNS 服务 器 发 送 一 个 查询 
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分 配 缓冲 区 并 初始 化 指针 
11-12 ”使 用 malloc 分 配 缓冲 区 buf， 它 足以 存放 20 字 节 的 下 首部、8 字 节 的 UDP 首 部 以 及 100 
字 节 的 用 户 数 据 。 把 指针 ptr 初 始 化 为 指向 用 户 数 据 的 第 一 个 字 节 。 
构造 DNS 查 询 
13-24 ”理解 由 本 函数 构造 的 UDP 数 据 报 的 细节 需要 了 解 DNS 消 息 格式 ， 参 见 TCPv1 的 14.3 节 。 
这 里 我 们 设置 标识 字段 为 1234， 标 志 为 0， 问 题 数 为 1!1， 至 于 资源 记录 (RR)， 我 们 把 
回答 RR 数 、 权 威 RR 数 和 额外 RR 数 都 设置 为 0。 
25-30 ”我 们 接着 构造 这 个 DNS 消息 中 后 跟 的 单个 问题 : 查询 主机 a.root-servers.net 的 了 
地 址 。 这 个 域名 存放 在 20 个 字 节 中 ， 由 4 个 标签 构成 : 1 字 节 标签 a、12 字 节 标 签 root - 
servers (注意 \014 是 一 个 八进制 字符 常数 )、3 字 节 标 签 net 和 长 度 为 0 的 根 标签 。 查 
询 类 型 为 1 ( 称 为 A 查 询 )， 查 询 类 别 也 为 1。 
写 出 UDP 数据 报 
31-32 ”这 个 消息 由 36 个 字 节 的 用 户 数 据 构 成 (8 个 2 字 节 字段 和 单个 20 字 节 域 名 )， 不 过 我 们 通 
过 计算 缓冲 区 内 当前 指针 和 缓冲 区 起 始 位 置 之 差 得 出 消息 长 度 ， 以 免 每 次 变动 待 发 送 
消息 的 格式 就 得 修改 这 个 常数 (36)。 最 后 调用 我 们 的 uap_write 函 数 构 造 UDP 和 了 P 首 
部 ， 并 把 构造 完毕 的 人 P 数 据 报 写 出 到 原始 套 接 字 。 
图 29-13 给 出 open_output 函 数 。 

















udpcksum/udpwrite.c 
2 int rawfd; /* raw socket to write on */ 
3 void 
4 open output (void) 
5 
6 int on-i; 
7 /* 
8 * Need a raw socket to write our own IP datagrams to. 
9 * Process must have superuser privileges to create this socket. 
10 * Also must set IP_HDRINCL so we can write our own IP headers. 
11 mf 
12 rawfd = Socket (dest->sa_family, SOCK_RAW, 0); 
13 Setsockopt (rawfd, IPPROTO IP, IP HDRINCL, &on, sizeof(on)); 
14 ) 
udpcksum/udpwrite.c 


图 29-13 open_output iM: 准备 原始 套 接 字 


声明 原始 套 接 字 描述 符 
2 声明 存放 原始 套 接 字 描述 符 的 全 局 变量 。 
创建 原始 套 接 字 并 开启 IP_HDRINCL 
7-13 ”创建 一 个 原始 套 接 字 并 开启 TP_HDRINCL 套 接 字 选 项 。 该 选项 允许 我 们 往 套 接 字 写 出 包 
括 于 首部 在 内 的 完整 全 数据 报 。 
图 29-14 给 出 udp_write 函 数 ， 它 构造 PP 和 UDP 首 部 并 把 结果 数据 报 写 出 到 原始 套 接 字 。 
初始 化 分 组 首部 指针 
24-26 ip 指向 卫 首 部 〈 一 个 ip 结构 ) 的 开始 位 置 ，ui 指 向 同一 位 置 ， 不 过 它 的 uapiphar 结 构 
是 IP 首 部 和 UDP 首部 的 组 合 。 
清 零 首部 
27 显 式 清 零 首部 区 域 ， 以 免 影响 可 能 留 在 缓冲 区 中 的 剩余 数据 的 校 验 和 计算 。 
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udpcksum/udpwrite.c 
19 void 
20 udp write(char *buf, int userlen) 
21 ( 
22 struct udpiphdr *ui; 
23 struct ip *ip; 
24 /* fill in and checksum UDP header */ 
25 ip - (struct ip *) buf; 
26 ui = (struct udpiphdr *) buf; 
27 bzero(ui, sizeof(*ui)); 
28 /* add 8 to userlen for pseudoheader length */ 
29 ui-»ui len = htons((uintl6 t) (sizeof(struct udphdr) + userlen)); 
30 /* then add 28 for IP datagram length */ 
31 userlen «- sizeof(struct udpiphdr); 
32 ui-»ui, pr = IPPROTO UDP; 
33 ui-»ui src.s addr = ((struct sockaddr in *) local)-»sin, addr.s addr; 
34 ui-»ui dst.s addr = ((struct sockaddr in *) dest)->sin_addr.s_addr; 
35 ui-»ui sport - ((struct sockaddr in *) local)-»sin port; 
36 ui-»ui dport - ((struct sockaddr in *) dest)-»sin port; 
37 ui-»ui ulen - ui-»ui len; 
38 if (zerosum -- 0) ( 
39 #if 1 /* change to if 0 for Solaris 2.x, x < 6 */ 
40 if ( (ui-»ui sum = in cksum((u int16 t *) ui, userlen)) == 0) 
41 ui-»ui sum - Oxffff; 
42 $else 
43 ui-»ui sum - ui-»ui len; 
44 &endif 
45 ) 
46 /* fill in rest of IP header; */ 
47 /* ip output() calcuates & stores IP header checksum */ 
48 ip-»ip v - IPVERSION; 
49 ip-»ip hl = sizeof(struct ip) »» 2; 
50 ip-»ip.tos - 0; 
51 #i£ defined(linux) || defined( OpenBSD. ) 
52 ip-»ip len = htons(userlen); /* network byte order */ 
53 #else 
54 ip-»ip len - userlen; /* host byte order */ 
55 #tendif 
56 ip-»ip id = 0; /* let IP set this */ 
57 ip-»ip off = 0; /* frag offset, MF and DF flags */ 
58 ip-»ip ttl - TTL OUT; 
59 Sendto(rawfd, buf, userlen, 0, dest, destien); 
60 ) 





udpcksum/udpwrite.c 
图 29-14 udp_write 函 数 : 构造 UDP 首部 和 IP 首 部 ， 往 原始 套 接 字 写 出 了 数据 报 


这 段 代 码 的 早先 版 本 显 式 清 零 struct udpiphar 的 每 个 成 员 ， 然 而 该 结构 含有 一 些 实 
现 细节 ， 因 而 不 同系 统 之 间 会 有 差异 。 在 显 式 构造 首部 时 ， 这 是 一 个 典型 的 移植 性 问题 。 


更 新 长 度 

28-31 ui_len 是 UDP 长 度 ， 即 用 户 数据 字 节 数 加 上 UDP 首部 长 度 〈8 个 字 节 )。userlen〈 跟 
在 UDP 首部 之 后 的 用 户 数据 字 节 数 ) 加 上 28〈20 字 节 的 IP 首 部 和 8 字 节 的 UDP 首部 ) 是 
整个 下 数据 报 的 大 小 。 

填写 UDP 首部 并 计算 UDP 校 验 和 

32~45 “UDP 校 验 和 计算 不 仅 涵 盖 UDP 首 部 和 UDP 数据 ， 而 且 涉及 来 自首 部 的 若干 字段 。 这 
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些 来 自 I 首 部 的 额外 字段 构成 所 谓 的 俯首 部 (pseudoheader)。 校 验 和 计算 涵盖 伪 首 部 
能 够 提供 如 下 额外 验证 : 如 果 校 验 和 正确 ， 那 么 数据 报 确实 已 被 递送 到 正确 的 主机 和 
正确 的 协议 处 理 代 码 。 这 些 语句 初始 化 下 首部 中 构成 伪 首 部 的 那些 字段 。 它 们 有 些 难 
懂 ， 不 过 TCPv2 的 23.6 节 有 相应 的 解释 。 最 终结 果 是 如 果 zerosum 标 志 〈 对 应 -0 命令 行 
参数 ) 没有 设置 ， 那 就 在 ui_sum 成 员 中 存 入 UDP 校 验 和 。 
如 果 计 算出 的 校 验 和 为 0， 那 就 改 为 存 入 0xffff。 在 二 进 制 反 码 算 术 (ones-complement 
arithmetic) 中 这 两 个 值 是 同 义 的 ,不 过 UDP 通过 设置 校 验 和 为 0 值 指示 发 送 者 没有 存放 
UDP 校 验 和 。 注 意 , 我 们 在 图 28-14 中 并 没有 检查 计算 出 的 校 验 和 是 否 为 0, 因为 ICMPv4 
校 验 和 是 必需 的 : 其 值 为 0 并 不 指示 没有 校 验 和 。 
我 们 指出 Solaris 2.x (x«6) 就 通过 设置 了 IP_HDRINCL 和 套 接 字 选 项 的 原始 套 接 字 发 送 的 
TCP 分 节 或 UDP 数 据 报 而 言 ， 在 校 验 和 字段 上 存在 一 个 缺陷 。 这 些 校 验 和 由 内 核 计算 ， 不 过 
进程 必须 把 ui_sum 成 员 设 置 为 TCP 或 UDP 的 长 度 . 


填写 IP 首 部 


46~59 


既然 已 经 开启 了 IP_HDRINCL 套 接 字 选 项 ， 我 们 就 必须 填写 下 首部 中 的 大 多 数字 段 。 
〈28.3 节 讨论 了 如 何 往 设 置 了 该 套 接 字 选 项 的 原始 套 接 字 写 出 这 些 字段 。) 我 们 把 标识 字 
段 〈ip_id) 设置 为 0， 以 告知 IP 模 块 去 设置 这 个 字段 。IP 模 块 还 计算 IP 首 部 校 验 和 。 
最 后 调用 senato 写 出 也 数据 报 。 
注意 , 对 于 ip_len 成 员 , 我 们 会 根据 所 用 的 操作 系统 或 按 主 机 字 节 序 设置 , 或 按 网 络 字 
节 序 设置 。 在 使 用 原始 套 接 字 时 这 通常 是 个 移植 性 问题 。 


下 一 个 函数 是 图 29-15 给 出 udp_read 函 数 ， 它 从 图 29-10 中 调用 。 


7 struct udpiphdr * 
8 udp read(void) 


udpcksum/udpread.c 


int len; 
char *ptr; 
struct ether header *eptr; 


for (sr) ¢t 
ptr = next pcap(&len); 


switch (datalink) { 
case DLT_NULL: /* loopback header = 4 bytes */ 
return(udp_check(ptr+4, len-4)); 
case DLT_EN1OMB: 
eptr = (struct ether_header *) ptr; 
if (ntohs(eptr->ether_type) != ETHERTYPE_IP) 
err_quit ("Ethernet type %x not IP", ntohs(eptr-»ether type)); 
return (udp_check(ptr+14, len-14)); 


case DLT_SLIP: /* SLIP header = 24 bytes */ 
return (udp_check(ptr+24, len-24)); 

case DLT_PPP: /* PPP header = 24 bytes */ 
return(udp_check(ptr+24, len-24)); 


default: 
err_quit ("unsupported datalink (%d)", datalink); 


MM — —  udpcksum/udpread c 
图 29-15 uap_read 函 数 ， 从 分 组 捕获 设备 读 入 下 一 个 分 组 


807 


640 
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14-29 ”调用 我 们 的 next_pcap 函 数 〈( 图 29-16)〉 从 分 组 捕获 设备 获取 下 一 个 分 组 。 既 然 数 据 链 


路 首部 依照 实际 设备 类 型 存在 差异 ， 于 是 我 们 根据 pcap_datalink 函 数 的 返回 值 作 跳 


转 。 


TCPv2 图 31-9 展 示 了 这 里 出 现 的 4、14 和 24 这 几 个 神秘 的 偏 移 量 。 与 SLIP 和 PPP 对 应 的 24 
字 节 偏 移 量 适用 于 BSD/OS 2.1. 

尽管 名 字 DLT_EN10MB 中 存在 “10MB?” 这 个 限定 词 ， 这 个 数据 链 路 类 型 也 用 于 100 Mbit/s 
以 太 网 。 


我 们 的 uap_check 函 数 〈 图 29-19) 检查 分 组 并 验证 IP 和 UDP 首部 中 的 字段 。 
图 29-16 给 出 next_pcap 函 数 ， 它 返回 来 自分 组 捕获 设备 的 下 一 个 分 组 。 





一 一 一 一 vdpcksunypcapc 
38 char * 
39 next pcap(int *len) 
40 ( 
41 char *ptr; 
42 struct pcap pkthdr hdr; 
43 /* keep looping until packet ready */ 
44 while ( (ptr = (char *) pcap next(pd, &hdr)) == NULL) ; 
45 *len = hdr.caplen; /* captured length */ 
46 return(ptr); 
47 } 

udpcksum/pcap.c 


43~44 


45~46 





图 29-16 ”next_pcap 函 数 ， 返回 下 一 个 分 组 


库 函 数 pcap_next 或 者 返回 下 一 个 分 组 ， 或 者 因 发 生 超时 而 返回 NuLL。 我 们 在 一 个 
循环 中 调用 pcap_next， 直 到 返回 一 个 分 组 〈 或 者 被 SIGaLRM 信 号 中 断 )。 该 函数 的 
返回 值 是 指向 所 返回 分 组 的 一 个 指针 ， 由 它 的 第 二 个 参数 指向 的 pcap_pkthar 结 构 
也 在 返回 时 被 填写 : 


struct pcap pkthdr { 


struct timeval ts; /* timestamp */ 
bpf u int32 caplen; /* length of portion captured */ 
bpf u int32 len; /* length of this packet (off wire) */ 


}; 


其 中 时 间 惟 是 分 组 捕获 设备 读 入 该 分 组 的 时 间 ， 而 不 是 稍 后 该 分 组 真正 递送 到 进程 
的 时 间 。caplen 是 实际 捕获 的 数据 量 〈 回 顾 一 下 ， 我 们 在 图 29-6 中 把 变量 snaplen 
设置 为 200, 然后 在 图 29-9 中 把 它 作 为 pcap_open_1ive 函 数 的 第 二 个 参数 )。 分 组 捕 
获 机 制 则 在 捕获 每 个 分 组 的 各 个 首部 ， 而 不 是 捕获 其 中 的 所 有 数据 。 len 是 该 分 组 
在 电缆 上 出 现 的 完整 长 度 。caplen 总 是 小 于 等 于 len。 

分 组 捕获 长 度 通过 本 函数 的 指针 参数 返回 给 调用 者 ， 本 函数 的 返回 值 则 是 指向 所 捕 
获 分 组 的 指针 。 切 记 ， 函 数 返回 值 指针 指向 的 是 数据 链 路 首部 ， 对 于 以 太 网 帧 是 14 
字 节 的 以 太 网 首部 ， 对 于 环 回 接口 则 是 4 字 节 的 擅 链 路 首部 。 

查看 pcap_next 在 函数 库 中 的 实现 ， 可 看 出 不 同 函数 之 间 的 分 工 与 协作 ， 如 图 
29-17 所 示 。 我 们 的 应 用 程序 调用 各 个 pcap_ 函 数 ， 其 中 有 些 与 设备 无 关 ， 有 些 则 
依赖 于 分 组 捕获 设备 的 类 型 。 举 例 来 说 ， 图 中 示 出 BPF 实 现 调用 read，DLPI 实 现 
调用 getmsg，Linux 实 现 调用 recvfrom。 
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udp. read 
| 应 用 进程 


next pcap 


| 


pcap next 


| 设备 无 关 
分 组 捕获 函数 库 ; 
pcap dispatch libpcap 
pcap read ] 设备 相关 
进程 


read getmsg recvfrom 
(BPF) (DLPI) (Linux) 


图 29-17 “从 分 组 捕获 函数 库 读 入 分 组 的 相关 函数 调用 


44-61 ”分 组 长 度 必须 至 少 包括 IP 和 UDP 首 部 。IP 版 本 以 及 IP 首 部 长 度 和 IP 首 部 校 验 和 都 必须 验 
证 。 如 果 协 议 字段 表明 这 是 一 个 UDP 数 据 报 ， 那 就 返回 指向 IP/UDP 组 合 首部 的 指针 。 
否则 终止 程序 运行 ， 因 为 我 们 在 图 29-9 中 调用 pcap_setfilter 时 指定 的 分 组 捕获 过 波 
器 不 应 该 返回 任何 其 他 类 型 的 分 组 。 
图 29-18 给 出 cleanup 函 数 ， 它 由 main 函 数 在 程序 即将 终止 时 调用 ， 同 时 也 是 用 于 中 断 程 序 
的 那些 键盘 输入 信和 号 的 信号 处 理 函数 。 


—— udpcksum/cleanup.c 
2 void 
3 cleanup(int signo) 
4t 
5 struct pcap stat stat; 
6 putc('Mn', stdout); 
7 if (verbose) ( 
8 if (pcap stats(pd, &stat) < 0) 
9 err quit("pcap stats: %s\n", pcap geterr (pd) ); 
10 printf("$d packets received by filterMn", stat.ps recv); 
11 printf("*d packets dropped by kernel\n", stat.ps, drop); 
12 ) 
13 exit(0); 
14 ) 

udpcksum/cleanup.c 


图 29-18 cleanup 


808 
l 
810 
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图 29-19 给 出 udp_check 函 数 ， 它 验证 IP 和 UDP 首 部 中 的 多 个 字段 。 我 们 必须 执行 这 些 验 证 


工作 ， 因 为 由 分 组 捕获 设备 传递 给 我 们 的 分 组 绕 过 了 IP 层 。 这 一 点 不 同 于 原始 套 接 字 。 


udpcksum/udpread.c 
38 struct udpiphdr * 
39 udp check(char *ptr, int len) 
40 ( 
41 int hlen; 
42 struct ip *ip; 
43 struct udpiphdr *ui; 
44 if (len « sizeof(struct ip) « sizeof(struct udphdr)) 
45 err quit("len = %d", len); 
46 /* minimal verification of IP header */ 
47 ip - (struct ip *) ptr; 
48 if (ip-»ip v != IPVERSION) 
49 err quit("ip v = %d", ip-»ip v); 
50 hlen - ip-»ip hl «« 2; 
51 if (hlen « sizeof(struct ip)) 
52 err quit("ip.hl = %d", ip-»ip hl); 
53 if (len < hlen + sizeof(struct udphdr)) 
54 err_quit ("len = $3, hlen = $d", len, hlen); 
55 if ( (ip-»ip sum = in cksum((uinti16 t *) ip, hlen)) !- 0) 
56 err quit("ip checksum error"); 
57 if (ip-»ip p == IPPROTO UDP) ( 
58 ui - (struct udpiphdr *) ip; 
59 return(ui); 
60 ) else 
61 err quit("not a UDP packet"); 
62 ) 
udpcksum/udpread.c 
图 29-19  udp checkPA AX: 检验 卫 首 部 和 UDP 首部 
获取 并 显示 分 组 捕获 统计 数据 
7-12 使 用 pcap_stats 获 取 分 组 捕获 统计 信息 : 由 过 滤器 接收 的 分 组 总 数 以 及 由 内 核 丢 弃 的 
分 组 总 数 。 
29.7.1 例子 


我 们 首先 使 用 -0 命令 行 选项 运行 本 程序 ， 以 验证 名 字 服 务 器 对 于 不 带 校 验 和 的 到 达 数 据 报 


也 给 出 响应 。 我 们 还 同时 指定 -v 命 令 行 选项 。 


macosx # udpcksum -i enl -0 -v bridget.rudoff.com domain 
device - enl 

localnet - 172.24.37.64, netmask - 255.255.255.224 

cmd - udp and src host 206.168.112.96 and src port 53 
datalink - 1 

sent: 36 bytes of data 

UDP checksums on 

recevied UDP checksum = 9d15 


3 packets received by filter 
0 packets dropped by kernel 


我 们 接着 针对 一 个 未 开启 UDP 校 验 和 的 本 地 名 字 服 务 器 〈 我 们 的 主机 freebsd4) 运行 本 程 


序 。 要 注意 的 是 不 开启 UDP 校 验 和 的 名 字 服 务 器 是 越 来 越 少 了 。 
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macosx # udpcksum -i enl -v freebsd4.unpbook.com domain 
device - enl 

localnet - 172.24.37.64, netmask - 255.255.255.224 

cmd = udp and src host 172.24.37.94 and src port 53 
datalink - 1 

sent: 36 bytes of data 

UDP checksums off 

recevied UDP checksum - 0 

3 packets received by filter 

0 packets dropped by kernel 


29.7.2 libnet 输出 函数 


我 们 现在 给 出 open_output 和 send_dns_guery 这 两 个 函数 用 1ibnet 取 代 原 始 套 接 字 实现 
的 版 本 。1ibnet 替 我 们 操心 许多 细节 问题 ,包括 校 验 和 以 及 IP 首 部 字 节 序 的 可 移植 性 。 图 29-20 


给 出 使 用 libnet 的 open_output 函 数 。 
—————— - udpcksum/senddnsquery-libnet.c 


7 static libnet t *1; /* libnet descriptor */ 
8 void 

9 open output (void) 

10 ( 

11 char errbuft[LIBNET ERRBUF. SIZE]; 

12 /* Initialize libnet with an IPv4 raw socket */ 
13 1 = libnet init(LIBNET RAW4, NULL, errbuf); 

14 if (i -- NULL) ( 

15 err quit("Can't initialize libnet: $s", errbuf); 
16 } 

17 } 





—— 一 一 一 udpcksum/senddnsquery-libnet.c 
图 29-20 open outputBA ER: 准备 使 用 1ibnet 


声明 1ibnet 描 述 符 
7 ”libnet 使 用 一 个 不 透明 数据 类 型 (1ibnet_t) 作为 调用 者 和 函数 库 的 联接 。1ibnet_ 
init 函 数 返 回 一 个 1ibnet_t 指 针 , 调用 者 把 它 传递 给 以 后 的 1ibnet 函 数 以 指示 所 期 望 
的 libnet 运 行 实例 。 从 这 个 意义 上 说 ， 它 类 似 套 接 字 和 pcap 描 述 符 。 
初始 化 1ibnet 
12-16 通过 将 第 一 个 参数 指定 为 LIBNET_RAW4 调 用 1ibnet_init 函数 请 求 打开 一 个 IPv4 原 始 
套 接 字 。 如 果 发 生 错 误 ，1ibnet_init 将 在 它 的 errbuf 参 数 中 返回 出 错 信 息 ， 并 返回 空 
指针 。 这 种 情况 下 我 们 显示 出 错 信息 。 
图 29-21 给 出 使 用 1ibnet 的 senG_gns_query 函 数 。 将 它 与 使 用 原始 套 接 字 的 send_dns_ 
query ([£29-12) 和 udp_write (图 29-14) 相 比 较 。 
构造 DNS 查 询 
25~32 ”构造 DNS 分 组 的 查询 问题 部 分 ， 类 似 图 29-12 第 25~30 行 。 
34-40 ”调用 libnet_build_dnsv4 函 数 , 它 接受 调用 者 将 DNS 分 组 的 每 个 字段 指定 为 独立 的 函 
数 参 数 。 我 们 只 需要 知道 查询 问题 部 分 的 布局 ， 如 何 构造 出 DNS 分 组 首部 的 细节 则 不 
用 我 们 操心 。 
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r ———— — — —udpcksum/senddnsquery-libnet.c 


18 void 

19 send dns, query (void) 

20 ( 

21 char qbuf[24], *ptr; 

22 u intl6 t one; 

23 int packet size = LIBNET UDP H + LIBNET DNSV4 H + 24; 

24 static libnet ptag t ip tag, udp tag, dns tag; 

25 /* build query portion of DNS packet */ 

26 ptr = qbuf; 

27 memcpy (ptr, "\001la\014root-servers\003net\000", 20); 

28 ptr += 20; 

29 one = htons(1); 

30 memcpy (ptr, &one, 2); /* query type = A */ 

31 ptr += 2; 

32 memcpy (ptr, &one, 2); /* query class = 1 (IP addr) */ 

33 /* build DNS packet */ 

34 Gns tag = libnet build dnsv4(1234 /* identification */, 

35 0x0100 /* flags: recursion desired */, 
36 1 /* 4 questions */, 0 /* # answer RRs */, 
37 0 /* # authority RRs */, 

38 0 /* # additional RRs */, 

39 qbuf /* query */, 

40 24 /* length of query */, 1, dns tag); 
41 /* build UDP header */ 

42 udp tag = libnet build udp(((struct sockaddr in *) local)-> 

43 sin port /* source port */, 

44 ((struct sockaddr in *) dest)-» 

45 sin port /* dest port */, 

46 packet size /* length */, 0 /* checksum */, 
47 NULL /* payload */, 0 /* payload length */, 
48 1, udp tag); 

49 /* Since we specified the checksum as 0, libnet will automatically */ 
50 /* calculate the UDP checksum. Turn it off if the user doesn't want it.*/ 
51 if (zerosum) 

52 if (libnet toggle checksum(1, udp tag, LIBNET OFF) « 0) 

53 err quit("turning off checksums: %s\n", libnet, geterror(1)); 
54 /* build IP header */ 

55 ip.tag = libnet build ipv4(packet size + LIBNET IPV4 H /* len */, 

56 0 /* tos */, 0 /* IP ID */, 0 /* fragment */, 

57 TTL OUT /* ttl */, IPPROTO UDP /* protocol */, 

58 0 /* checksum */, 

59 ((struct sockaddr in *) local)-»sin addr.s addr /* source */, 
60 ((struct sockaddr in *) dest)-»sin addr.s addr /* dest */, 

61 NULL /* payload */, 0 /* payload length */, l, ip tag); 

62 if (libnet write(1) < 0) { 

63 err quit("libnet write: %s\n", libnet geterror(1)); 

64 ) 

65 if (verbose) 

66 printf("sent: %d bytes of data\n", packet, sizo); 

67 ) 





M — —-udpcksum/senddnsquery-libnet.c 
图 29-21 使 用 1ibnet 的 send_dns_query 函 数 ， 向 DNS 服 务 器 发 送 查 询 


填写 UDP 首 部 并 安排 UDP 校 验 和 计算 
42~48 ”调用 1ibnet_build_udp 函 数 构造 UDP 首部 。 它 同样 接受 作为 独立 的 函数 参数 指定 每 个 


习题 645 


字段 。 当 传 入 的 校 验 和 字段 值 为 0 时 ，libnet 将 自动 计算 校 验 和 存 入 该 字段 。 这 些 类 似 
图 29-14 第 29~45 行 。 

49-52 ”如 果 用 户 请 求 不 计算 校 验 和 ， 那 么 我 们 必须 显 式 禁 止 校 验 和 计算 。 

填写 IP 首 部 

53-65 调用 1libnet_buila_ipv4 函 数 构造 IPv4 首 部 以 完成 整个 分 组 的 构造 。 与 其 他 
libnet_build 函 数 一 样 ， 我 们 仅仅 提供 字段 内 容 ， 把 它们 组 装 成 首部 是 1ibnet 之 事 。 
这 些 类 似 图 29-14 第 46~58 行 。 

注意 ，1ibnet 自动 留意 ip_len 字 段 是 否 为 网 络 字 节 序 。 这 是 通过 使 用 1ibnet 令 移植 
性 得 以 改善 的 一 个 例子 . 


写 出 UDP 数 据 报 
66-70 ”调用 1ibnet_write 函 数 把 组 装 成 的 数据 报 写 出 到 网 络 。 

注意 , send_qans_query 函 数 的 1ibnet 版 本 只 有 67 行 , 而 原始 套 接 字 版 本 (send_dns_query 
和 uap_write 的 组 合 ) 却 有 96 行 ， 且 含有 至 少 2 个 移植 性 小 问题 。 


Dauer ee ee es ec LL Coa al LJ vni P ry xo ott RR rt vest 





原始 套 接 字 使 得 我 们 有 能 力 读 写 内 核 不 理解 的 人 P 数 据 报 ， 数 据 链 路 层 访问 则 把 这 个 能 力 进 
一 步 扩 展 成 读 与 写 任何 类 型 的 数据 链 路 帧 ， 而 不 仅仅 是 IP 数 据 报 。tcpdump 也 许 是 直接 访问 数 
据 链 路 层 的 最 常用 程序 。 

不 同 操作 系统 有 不 同 的 数据 链 路 层 访问 方法 。 我 们 查看 了 源 自 Berkeley 的 BPF、SVR4 的 
DLPI 和 Linux 的 SocK_PACKET。 不 过 如 果 使 用 公开 可 得 的 分 组 捕获 函数 库 1ibpcap， 我 们 就 可 以 
忽略 所 有 这 些 区 别 ， 依 然 编写 出 可 移植 的 代码 。 

在 不 同系 统 上 编写 原始 数据 报 可 能 各 不 相同 。 公 开 可 得 的 1ibnet 函数 库 隐 藏 了 这 些 差异 ， 
所 提供 的 输出 接口 既 可 以 通过 原始 套 接 字 访 问 ， 也 可 以 在 数据 链 路 上 直接 访问 。 


29.4 图 29-11 中 的 canjump 标 志 的 目的 是 什么 ? 

29.2 ”对 于 我 们 的 udapcksum 程 序 ， 常 见 的 出 错 应 答 是 ICMP 端 口 不 可 达 《〈 目 的 地 没有 在 运行 名 字 服 务 器 ) 
或 ICMP 主 机 不 可 达 。 这 两 种 情况 下 ， 我 们 不 必 等 待 图 29-10 中 的 udp_read 发 生 超时 ， 因 为 这 样 的 
ICMP 错 误 实质 上 也 是 对 我 们 的 DNS 查 询 的 应 答 。 修 改 这 个 程序 以 捕获 这 些 ICMP 错 误 。 
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当 开 发 一 个 Unix 服 务 器 程序 时 ， 我 们 有 如 下 类 型 的 进程 控制 可 供 选择 。 
e 本 书 第 一 个 服务 器 程序 即 图 1-9 是 一 个 迭代 服务 器 (iterative server) 程序 ， 不 过 这 种 类 型 
的 适用 情形 极为 有 限 ， 因 为 这 样 的 服务 器 在 完成 对 当前 客户 的 服务 之 前 无 法 处 理 已 等 待 
服务 的 新 客户 。 
e 图 $-2 是 本 书 第 一 个 并 发 服务 器 (concurrent server) 程序 ， 它 为 每 个 客户 调用 fork 派 生 一 
个 子 进程 。 传 统 上 大 多 数 Unix 服 务 器 程序 属于 这 种 类 型 。 
e 在 6.8 节 , 我 们 开发 的 另 一 个 版 本 的 TCP 服 务 器 程序 由 使 用 select 处 理 任意 多 个 客户 的 单 
个 进程 构成 。 
o 在 图 26-3 中 我 们 的 并 发 服务 器 程序 被 改 为 服务 器 为 每 个 客户 创建 一 个 线程 ， 以 取代 派生 
一 个 进程 。 
我 们 将 在 本 章 探究 并 发 服务 器 程序 设计 的 另 两 类 变 体 。 
e 预先 派生 子 进程 (preforking) 是 让 服务 器 在 启动 阶段 调用 fork 创 建 一 个 子 进程 池 。 每 个 
客户 请 求 由 当前 可 用 子 进程 池 中 的 某 个 (闲置 ) 子 进程 处 理 。 
e 预先 创建 线程 〈prethreading) 是 让 服务 器 在 启动 阶段 创建 一 个 线程 池 ， 每 个 客户 由 当前 
可 用 线程 池 中 的 某 个 〈 闲 置 ) 线程 处 理 。 
我 们 将 在 本 章 审视 预先 派生 子 进程 和 预先 创建 线程 这 两 种 类 型 的 众多 细节 : 如 果 池 中 进程 
和 线程 不 够 多 怎么 办 ? 如 果 池 中 进程 和 线程 过 多 怎么 办 ? 父 进程 与 子 进 程 之 间 以 及 各 个 线程 之 
间 怎 样 彼此 同步 ? 
客户 程序 的 编写 通常 比 服务 器 程序 容易 些 ， 因 为 客户 中 进程 控制 要 少 得 多 。 尽 管 如 此 ， 既 
然 我 们 已 在 本 书 中 审查 了 编写 简单 的 回 射 客户 程序 的 各 种 方法 ， 我 们 就 在 30.2 节 给 出 总 结 。 
我 们 将 在 本 章 查看 9 个 不 同 的 服务 器 程序 设计 范式 , 并 针对 同一 个 客户 程序 运行 这 些 服务 器 
程序 以 便 互 相 比 较 。 我 们 的 客户 /服务 器 交互 情形 在 Web 应 用 中 是 典型 的 ， 客 户 向 服务 器 发 送 一 
个 小 请 求 ， 服 务 器 响应 以 返回 给 客户 的 数据 。 我 们 已 经 讨论 过 其 中 一 些 服务 器 程序 〈 璧 如 为 每 
个 客户 fork 一 个 子 进程 的 并 发 服务 器 程序 )， 不 过 预先 派生 子 进程 类 型 和 预先 创建 线程 类 型 是 
新 引入 的 ， 我 们 将 在 本 章 详细 讨论 这 些 类 型 的 服务 器 程序 。 
我 们 将 针对 每 个 服务 器 程序 运行 同一 客户 程序 的 多 个 实例 ， 以 测量 服务 某 个 固定 数目 的 客 
户 请 求 所 需 的 CPU 时 间 。 我 们 把 这 些 CPU 测 时 结果 汇总 在 图 30-1 中 并 贯穿 本 章 引用 本 图 ， 而 不 
是 把 它们 直接 分 散在 本 章 各 处 。 我 们 指出 本 图 中 的 时 间 测 量 的 是 仅仅 用 于 进程 控制 所 需 的 CPU 
时 间 , 而 迭代 服务 器 是 我 们 的 基准 , 从 其 他 服务 器 的 实际 CPU 时 间 中 减 去 迭代 服务 器 的 实际 CPU 
时 间 就 得 到 相应 服务 器 用 于 进程 控制 所 需 的 CPU 时 间 ， 因 为 迭代 服务 器 没有 进程 控制 开销 。 我 
们 在 本 图 中 包含 0.0 这 个 基准 时 间 就 是 为 了 强调 这 一 点 。 本 章 中 我 们 使 用 进程 控制 CPU 时 间 
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(process control CPU time)〉 来 称谓 某 个 给 定 系统 与 基准 的 CPU 时 间 之 差 。” 


服务 器 描述 进程 控制 CPU 时 间 〈 秒 数 ， 与 基准 之 差 ) 


| Solaris | 

ahs WES eR | 9] 
[FR ETE PRO PEN | saz 

预先 派生 子 进程 ， 每 个 子 进程 调用 accept 

预先 派生 子 进程 ， 以 文件 上 锁 方 式 保护 accept 

预先 派生 子 进 程 ， 以 线程 互 斥 锁 上 锁 方 式 保护 accepc 

预先 派生 子 进 程 ， 由 父 进 程 向 子 进程 传递 套 接 字 描述 符 

并 发 服务 器 ， 为 每 个 客户 请 求 创建 一 个 线程 

预先 创建 线程 ， 以 互 斥 锁 上 锁 方式 保护 accept 

预先 创建 线程 ， 由 主线 程 调用 accept 


图 30-1 本 章 所 讨论 各 个 范式 服务 器 的 测 时 结果 比较 


所 有 这 些 服务 器 测 时 数据 都 通过 在 与 服务 器 主机 处 于 同一 子 网 的 两 个 不 同 的 主机 上 运行 图 
30-3 给 出 的 客户 程序 获得 。 对 于 每 个 测试 ， 这 两 个 客户 都 派生 5 个 子 进程 以 建立 到 服务 器 的 5 个 
同时 存在 的 连接 ， 因 此 服务 器 在 任意 时 刻 最 多 有 10 个 同时 存在 的 连接 。 每 个 客户 跨 每 个 连接 请 
求 服务 器 返回 4000 字 节 的 数据 。 对 于 涉及 预先 派生 子 进程 或 预先 创建 线程 这 两 种 类 型 服务 器 的 
测试 ， 服 务 器 在 启动 阶段 派生 15 个 子 进程 或 创建 15 个 线程 。 

有 些 服务 器 程序 设计 涉及 创建 一 个 子 进 程 池 或 一 个 线程 池 。 我 们 需要 考虑 的 一 个 问题 是 闲 
置 子 进程 过 多 或 闲置 线程 过 多 会 有 什么 影响 。 “图 30-2 汇 总 了 这 些 分 布 数据 ,我 们 也 将 在 合适 章 
节 讨 论 其 中 每 一 栏 。 








(D 本 书 第 2 版 中 还 有 这 段 表 述 :“ 我 们 在 3 个 主机 上 运行 各 个 范式 的 服务 器 : sunos5 C Solaris 2.5.1), alpha( Digital Unix 
4.0b) 和 bsdi (BSD/OS 3.0)。 注 意 ， 并 非 所 有 服务 器 都 能 在 这 3 个 主机 上 运行 。 举 例 来 说 ， 行 2 的 服务 器 不 能 在 
大 多 数 SVR4 主 机 上 运行 〈 见 30.7 节 中 的 讨论 )， 在 BSD/OS 主 机 上 则 不 能 运行 任何 线程 化 服务 器 〈 因 为 BSD/OS 
内 核 不 支持 线程 ;。 这 3 个 服务 器 主机 的 硬件 体系 结构 是 不 同 的 ， 因 此 我 们 无 法 在 它们 之 间 比 较 测 时 结果 。 给 出 
这 些 测 时 数据 的 意图 是 在 某 个 给 定 主机 上 而 不 是 在 不 同 硬件 体系 结构 和 操作 系统 之 间 比 较 各 个 服务 器 设计 范 
式 ， 也 就 是 说 在 图 30-1 中 我 们 应 该 纵向 比较 而 不 应 该 横向 比较 。 举 例 来 说 ， 行 7 的 服务 器 在 Solaris 和 Digital Unix 
上 都 是 最 快 的 ， 而 行 2 的 服务 器 在 BSD/OS 上 是 最 快 的 . ”鉴于 第 3 版 新 作者 们 没 能 给 出 全 面 的 测 时 数据 且 没 有 说 
明 服 务 器 运行 环境 ， 本 译本 的 图 30-1 和 图 30-2 采 用 Stevens 先 生 在 第 2 版 提供 的 测 时 数据 ， 并 附 以 新 作者 们 给 出 的 
数据 。 正 如 Stevens 先 生 所 言 这 些 测 时 数据 旨 在 纵向 比较 ， 因 此 是 否 采 用 新 作者 们 的 新 数据 关系 不 大 ， 而 且 采 用 
Stevens 先 生 的 数据 更 能 说 明 一 些 细节 问题 。 一 一 译 者 注 

© 图 30-1A 汇 总 了 这 些 测 时 结果 ， 它 是 原 书 第 2 版 中 的 图 27-3。 我 们 需要 考虑 的 另 一 个 问题 是 客户 请 求 在 可 用 子 进 
程 池 或 线程 池 中 的 分 布 。 一 一 译 者 注 


进程 控制 CPU 时 间 ( 秒 数 ， 与 基准 之 差 ) 


子 进程 数 或 MERETHE, acce EMR | 预先 派生 子 进程 ，accept 有 文件 上 | 预先 创建 线程 ，accept 
线程 数 # (472) 锁 保护 〔 行 3》 有 互 斥 锁 上 镇 保护 《〈 行 7? 


ovos | sw | mum [soos | some | 
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图 30-1A ”过 多 子 进程 或 线程 对 服务 器 CPU 时 间 的 影响 
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所 服务 客户 数 


up | BIET TES | 预先 派生 子 进程 ，accept 有 | 预先 派生 子 进 程 ， 描 述 符 传 xu 
或 线程 数 | Ceo) 文件 上 锁 保护 〈 行 3) 递 ( 行 5) "URP (ID 
BSD/OS | Solaris | DUnix | BSD/OS Solaris | DUnix 

1006 

950 

720 

582 


预先 创建 线程 ， 


0 
1 
2 
3 
4 
5 
6 
7 
8 
9 


图 30-2 15 个 子 进程 或 线程 中 每 一 个 所 服务 的 客户 数 的 分 布 ? 


Haare Sub Y ru HO TE HN RNR PO er TEE 


我 们 已 经 探究 了 客户 程序 的 各 种 设计 范式 ， 这 里 有 必要 汇总 它们 各 自 的 优 缺 点 。 
e 图 5-5 是 基本 的 TCP 客 户 程序 。 该 程序 存在 两 个 问题 。 首 先 ， 进 程 在 被 阻塞 以 等 待 用 户 输入 
期 间 , 看 不 到 诸如 对 端 关 闭 连 接 等 网 络 事件 。 其次, 它 以 停 -等 模式 运作 , 批 处 理 效 率 极 低 。 
e 图 6-9 是 下 一 个 迭代 客户 程序 ， 它 通过 调用 select 使 得 进程 能 够 在 等 待 用 户 输入 期 间 得 
到 网 络 事件 通知 。 然 而 该 程序 存在 不 能 正确 地 处 理 批量 输入 的 问题 。 图 6-13 通 过 使 用 
shutdown PA ALAR SIX ja) Gl. 
e 从 图 16-3 开 始 给 出 的 是 使 用 非 阻塞 式 I/O 实 现 的 客户 程序 。 
e 第 一 个 超越 单 进程 单线 程 设计 范畴 的 客户 程序 是 图 16-10， 它 使 用 fork 派 生 一 -个 子 进 程 ， 
并 由 父 进程 〈 或 子 进程 ) 处 理 从 客户 到 服务 器 的 数据 ， 由 子 进程 〈 或 父 进程 ) 处 理 从 服 
务 器 到 客户 的 数据 。 
e 图 26-2 使 用 两 个 线程 取代 两 个 进程 。 
我 们 在 16.2 节 末尾 汇总 了 这 些 不 同 版 本 之 间 在 测 时 结果 上 的 差异 。 在 那里 我 们 指出 ， 非 阻 
塞 式 IO 版 本 尽管 是 最 快 的 ， 其 代码 却 比较 复杂 ; 使 用 两 个 进程 或 两 个 线程 的 版 本 相 比 之 下 代码 
简化 得 多 ， 而 运行 速度 只 是 稍 逊 而 已 。 


中 此 图 根据 原 书 第 2 版 图 27-3 作 了 修改 .在 原 书 第 3 版 中 , 只 保留 了 第 1 列 中 BSD/OS 的 数据 和 后 几 列 中 Solaris 的 数据 。 


一 一 详 者 注 
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30.3 TCP 测试 用 客户 程序 

图 30-3 给 出 的 客户 程序 用 于 测试 我 们 的 服务 器 程序 的 各 个 变 体 。 

server/client.c 

1 #include "unp.h" 

2 #define MAXN 16384 /* max # bytes to request from server */ 

3 int 

4 main(int argc, char **argv) 

5 { 

6 int i, j, fd, nchildren, nloops, nbytes; 

7 pid t pid; 

8 ssize t n; 

9 char request[MAXLINE], reply [MAXN]; 

10 if (argc !- 6) 

11 err quit("usage: client «hostname or IPaddr» «port» <#children> " 

12 "<#loops/child> «fbytes/request»"); 

13 nchildren = atoi(argv[3]); 

14 nloops = atoi(argv[4]); 

15 nbytes = atoi(argv[5]); 

16 snprintf (request, sizeof (request), "%d\n", nbytes); /* newline at end */ 

17 for (i = 0; i < nchildren; i++) { 

18 if ( (pid = Fork()) == 0) { /* child */ 

19 for (j = 0; j < nloops; j++) ( 

20 fd = Tep_connect (argv[1], argv[2]); 

21 Write(fd, request, strlen(request)); 

22 if ( (n = Readn(fd, reply, nbytes)) != nbytes) 

23 err_quit ("server returned %d bytes", n); 

24 Close(fd); /* TIME WAIT on client, not server */ 

25 } 

26 printf("child $d done\n", i); 

27 exit (0); 

28 } 

29 /* parent loops around to fork() again */ 

30 } 

31 while (wait(NULL) > 0) /* now parent waits for all children */ 

32 ; 

33 if (errno !- ECHILD) 

34 err, sys("wait error"); 

35 exit(0); 

36 ) 

server/client.c 





图 30-3 ”用 于 测试 各 个 范式 服务 器 的 TCP 客 户 程序 


10-12 每 次 运行 本 客户 程序 时 ， 我 们 指定 服务 器 的 主机 名 或 了 了 地 址 、 服 务 器 的 端口 、 由 客户 
fork 的 子 进程 数 〈 以 允许 客户 并 发 地 向 同一 个 服务 器 发 起 多 个 连接 )、 每 个 子 进程 发 送 
给 服务 器 的 请 求 数 ， 以 及 每 个 请 求 要 求 服务 器 返 送 的 数据 字 节 数 。 
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17~30” 父 进程 调用 fork 派 生 指定 个 数 的 子 进程 , 每 个 子 进程 再 与 服务 器 建立 指定 数目 的 连接 。 

每 次 建立 连接 之 后 ， 子 进程 就 在 该 连接 上 向 服务 器 发 送 一 行文 本 ， 指 出 需 由 服务 器 返 
送 多 少 字 节 的 数据 ， 然 后 在 该 连接 上 读 入 这 个 数量 的 数据 ， 最 后 关闭 该 连接 。 父 进程 
只 是 调用 wait 等 待 所 有 子 进程 都 终止 。 需 注意 的 是 ， 这 里 关闭 每 个 TCP 连 接 的 是 客户 
端 ， 因 而 TCP 的 TIME_WAIT 状 态 发 生 在 客户 端 而 不 是 服务 器 端 。 这 是 与 通常 的 HTTP 连 
接 的 差别 之 一 。 

我 们 在 本 章 测试 各 个 版 本 的 服务 器 程序 时 ， 用 于 执行 本 客户 程序 的 命令 如 下 ”: 

% client 206.62.226.36 8888 5 500 4000 
这 将 建立 2500 个 与 服务 器 的 TCP 连 接 : 5 个 子 进 程 各 自发 起 500 次 连接 。 在 每 个 连接 上 ， 
客户 向 服务 器 发 送 5 字 节 数 据 (“4000\n”)， 服 务 器 向 客户 返 送 4000 字 节 数 据 。 我 们 在 
两 个 不 同 的 主机 上 针对 同一 个 服务 器 执行 本 客户 程序 ， 于 是 总 共 提供 5000 个 TCP 连 接 ， 
而 且 任意 时 刻 服 务 器 端 最 多 同时 存在 10 个 连接 。 


已 有 较 完 善 的 基准 测试 程序 (benchmark) 用 于 测试 各 种 Web 服 务 器 性 能 。WebStone 是 其 
中 之 一 ， 可 从 http://www.mindcraft.com/webstone 获 取 。 然而 就 为 一 般 性 地 比较 本 章 探 讨 的 各 
个 服务 器 程序 设计 范式 ， 我 们 用 不 上 如 此 深奥 的 测试 程序 。 


我 们 接 下 去 逐一 给 出 9 个 不 同 的 服务 器 程序 设计 范式 。 





迭代 TCP 服 务 器 总 是 在 完全 处 理 某 个 客户 的 请 求 之 后 才 转 向 下 一 个 客户 。 这 样 的 服务 器 程 
序 比 较 少 见 ， 不 过 我 们 在 图 1-9 展 示 了 一 个 例子 ， 一 个 简单 的 时 间 获 取 服 务 器 程序 。 

我 们 在 本 章 中 比较 各 个 范式 服务 器 程序 时 迭代 服务 器 程序 的 用 途 却 不 可 磨灭 。 如 果 我 们 针 
对 迭代 服务 器 如 下 执行 用 于 测试 的 客户 程序 *: 

% client 206.62.226.36 8888 1 5000 4000 


我 们 得 到 同样 数目 的 TCP 连 接 〈5000 个 )， 跨 每 个 连接 传送 的 数据 量 也 相同 。 然 而 由 于 服务 器 是 
友 代 的 ， 它 没有 执行 任何 进程 控制 。 这 就 让 我 们 测量 出 服务 器 处 理 如 此 数目 客户 所 需 CPU 时 间 
的 一 个 基准 值 ， 从 其 他 服务 器 的 实测 CPU 时 间 中 减 去 该 值 就 能 得 到 它们 的 进程 控制 时 间 。 从 进 
程控 制 角 度 看 迭代 服务 器 是 最 快 的 ， 因 为 它 不 执行 进程 控制 。 有 了 基准 值 之 后 ， 我 们 在 图 30-1 
中 比较 各 个 实测 CPU 时 间 与 基准 值 的 差 值 。 

我 们 不 给 出 本 迭代 服务 器 程序 ， 因 为 它 只 不 过 是 对 下 一 节 给 出 的 并 发 服务 器 程序 的 少许 修 
改 而 已 。 
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传统 上 并 发 服务 器 调用 fork 派 生 一 个 子 进程 来 处 理 每 个 客户 。 这 使 得 服务 器 能 够 同时 为 多 
个 客户 服务 ， 每 个 进程 一 个 客户 。 客 户 数目 的 唯一 限制 是 操作 系统 对 以 其 名 义 运行 服务 器 的 用 


—— P—— 





户 ID 能 够 同时 拥有 多 少子 进程 的 限制 。 图 $-12 就 是 一 个 并 发 服务 器 程序 的 例子 ， 绝 大 多 数 TCP 


QD 此 命令 行 原 书 为 % client 192.168.1.20 8888 5 500 4000。 一 一 编者 注 
Q 此 命令 行 原 书 为 % client 192.168.1.20 8888 1 5000 4000。 一 一 编者 注 
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服务 器 程序 也 按照 这 个 范式 编写 。 
并 发 服务 器 的 问题 在 于 为 每 个 客户 现场 fork 一 个 子 进程 比较 耗费 CPU 时 间 。 多 年 前 (20 世 
纪 80 年 代 后 期 ) 当 一 个 繁忙 的 服务 器 每 天 也 就 处 理 几 百 个 亦 或 几 千 个 客户 时 ， 这 点 CPU 时 间 是 
可 以 接受 的 。 然 而 Web 应 用 的 爆发 式 增长 改变 了 人 们 的 态度 。 繁 忙 的 Web 服 务 器 每 天 测 得 TCP 
连接 数 以 百 万 计 。 这 还 是 就 单个 主机 而 言 ， 更 繁忙 的 站 点 往往 运行 多 个 主机 来 分 摊 负 荷 。 
(CTCPv3 的 14.2 节 讨论 使 用 称 为 DNS 轮 循 (DNS round robin) 的 手段 实施 的 一 个 常用 负载 散布 方 
法 。) 以 后 若干 节 讲 解 各 种 技术 以 避免 并 发 服务 器 为 每 个 客户 现场 fork 的 做 法 ， 不 过 传统 意义 
上 的 并 发 服务 器 依然 相当 普遍 。 
图 30-4 给 出 我 们 的 并 发 服务 器 程序 的 main 函 数 。 


——————————— —— server/serv0l.c 
1 #include "unp.h" 


2 int 
3 main(int argc, char **argv) 
4 { 
5 int listenfd, connfd; 
6 pid t childpid; 
7 void sig chld(int), sig int(int), web child(int); 
8 socklen_t clilen, addrlen; 
$9 struct sockaddr *cliaddr; 
10 if (argc -- 2) 
11 listenfd - Tcp listen(NULL, argv[1], &addrlen); 
12 else if (argc -- 3) 
13 listenfd = Tcp listen(argv[1], argv[2], &addrlen); 
14 else 
15 err quit("usage: serv01 [ «host» ] <port#>"); 
16 cliaddr = Malloc(adárlen); 
17 Signal (SIGCHLD, sig chld); 
18 Signal(SIGINT, sig int); 
19 for (77) ¢ 
20 clilen = addrlen; 
21 if ( (connfd = accept (listenfd, cliaddr, &clilen)) < 0) { 
22 if (errno == EINTR) 
23 continue; /* back to for() */ 
24 else 
25 err_sys ("accept error"); 
26 } 
27 if ( (childpid = Fork()) == 0) ( /* child process */ 
28 Close (listenfd) ; /* close listening socket */ 
29 web child(connfd); /* process request */ 
30 exit(0); 
31 ) 
32 Close(connftd); /* parent closes connected socket */ 
33 ) 





server/serv0l.c 


图 30-4 TCP 并 发 服务 器 程序 main 函 数 


本 函数 类 似 图 5-12， 它 为 每 个 客户 连接 forxk 一 个 子 进程 并 处 理 来 自 垂 死 的 子 进程 的 
SIGCHLD 信 号 。 不 过 本 函数 通过 调用 tcp_1isten 而 变 得 协议 无 关 。 我 们 不 给 出 sig_ch1a 信 号 处 
理 函 数 ， 它 与 图 5-11 一 样 ， 不 过 去 掉 了 printf 调 用 。 

我 们 还 捕获 由 键入 终端 中 断 键 产生 的 sTGTNT 信 号 。 在 客户 运行 完毕 之 后 我 们 键入 该 键 以 显 
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示 服 务 器 程序 运行 所 需 的 CPU 时 间 。 图 30-5 给 出 STGINT 信 号 处 理 函 数 。 
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不 返回 而 直接 终止 进程 的 例子 。 


35 void 


36 sig int(int signo) 


37 ( 





N e 


w 


void pr_cpu_time (void); 


pr cpu time(); 
exit(0); 





图 30-5 SIGINT 信 号 处 理 函 数 


图 30-6 给 出 由 SIGINT 信 号 处 理 函 数 调用 的 pr_cpu_time 函 数 。 


#include “unp.h" 
#include <sys/resource.h> 


#ifndef HAVE_GETRUSAGE_PROTO 


4 int getrusage(int, struct rusage *); 

5 #endif 

6 void 

7 pr_cpu_time (void) 

8 { 

9 Gouble user, sys; 

10 struct rusage  myusage, childusage; 

11 if (getrusage(RUSAGE SELF, &myusage) < 0) 

12 err sys("getrusage error"); 

13 if (getrusage(RUSAGE CHILDREN, &childusage) < 0) 
14 err sys("getrusage error"); 

15 user - (double) myusage.ru utime.tv sec « 

16 myusage.ru utime.tv usec/ 1000000.0; 

17 user += (double) childusage.ru utime.tv sec + 
18 childusage.ru utime.tv usec/ 1000000.0; 
19 sys = (double) myusage.ru, stime.tv sec + 

20 myusage.ru stime.tv usec/  1000000.0; 
21 sys += (double) childusage.ru stime.tv sec + 
22 childusage.ru stime.tv usec/ 1000000.0; 
23 printf("\nuser time = %g, sys time = $gMn", user, sys); 
24 } 


图 30-6 pr cpu timePR3X: 显示 总 CPU 时 间 


这 是 一 个 信号 处 理 函 数 


server/serv01.c 


server/serv01.c 





server/pr cpu time.c 


server/pr cpu time.c 


getrusage 函 数 被 调用 了 两 次 ， 分 别 返 回调 用 进程 (RUSAGE SELF) 和 它 的 所 有 已 终止 子 
进程 (RUSAGE CHILDREN) 的 资源 利用 统计 。 所 显示 的 值 包括 总 的 用 户 时 间 (耗费 在 执行 用 户 
进程 上 的 CPU 时 间 〉 和 总 的 系统 时 间 (内 核 在 代表 调用 进程 执行 系统 调用 上 耗费 的 CPU 时 间 )。 

图 30-4 中 的 main 函 数 调用 web_chila 函 数 处 理 每 个 客户 请 求 。 图 30-7 给 出 了 这 个 函数 。 

客户 在 建立 与 服务 器 的 连接 之 后 通过 该 连接 写 出 一 行文 本 ， 指 出 需 由 服务 器 返 送 多 少 字 节 
的 数据 给 客户 。 这 一 点 与 HTTP 有 些 类 似 : 客户 发 送 一 个 小 请 求 , 服务 器 响应 以 所 期 望 的 信息 ( 例 
如 一 个 HTML 文件 或 一 幅 GIE 图 像 )。 在 HTTP 应 用 系统 中 ， 服 务 器 通常 在 发 送 回 所 请 求 的 数据 之 
后 就 关闭 连接 ， 不 过 较 新 的 版 本 允许 使 用 持续 连接 (persistent connection)， 为 在 某 个 时 限 以 内 
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到 达 的 额外 客户 请 求 继续 保持 TCP 连 接 开放 一 段 时 间 。 在 web_child 函 数 中 ， 服 务 器 允许 来 自 
客户 的 额外 请 求 ， 不 过 我 们 在 图 30-3 中 看 到 用 于 测试 的 客户 每 次 建立 连接 只 发 送 一 个 请 求 ， 然 
后 就 自己 关闭 该 连接 。 


server/web child.c 





1 include "unp.h" 

2 #define MAXN 16384 /* max # bytes client can request */ 
3 void 

4 web child(int sockfd) 

5t 

6 int ntowrite; 

7 ssize t nread; 

8 char line[MAXLINE], result [MAXN) ; 

9 for (3 : 1 4 

10 if ( (nread = Readline(sockfd, line, MAXLINE)) == 0) 

11 return; /* connection closed by other end */ 
12 /* line from client specifies #bytes to write back */ 

13 ntowrite = atol(line); 

14 if ((ntowrite «- 0) || (ntowrite » MAXN)) 

15 err quit("client request for d bytes", ntowrite); 

16 Writen(sockfd, result, ntowrite); 

X7 ) 

18 ) 


server/web child.c 











图 30-7 “处理 每 个 客户 请 求 的 web_chila 函 数 


图 30-1 中 行 1 给 出 了 我 们 的 并 发 服务 器 程序 的 测 时 结果 。 相 比 后 续 各 行 , 我 们 看 到 传统 意义 
的 并 发 服务 器 所 需 CPU 时 间 最 多 ， 与 它 为 每 个 客户 现场 fork 的 做 法 相 吻 合 。 


我 们 在 本 章 中 没有 测量 的 一 个 服务 器 程序 设计 范式 是 在 13.5 节 讲解 过 的 由 inetd 激 活 的 
服务 器 。 从 进程 控制 角度 看 ， 由 inetdq 激 活 的 处 理 单个 客户 的 每 个 服务 器 涉及 一 个 fork 和 一 
个 exec， 因 而 所 需 CPU 时 间 只 会 比 图 30-1 中 行 1 所 示 时 间 更 多 。 
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我 们 的 第 一 个 “增强 ”型 服务 器 程序 使 用 称 为 预先 派生 子 进程 (preforking) 的 技术 。 使 用 
该 技术 的 服务 器 不 像 传统 意义 的 并 发 服务 器 那样 为 每 个 客户 现场 派生 一 个 子 进程 ， 而 是 在 启动 
阶段 预先 派生 一 定数 量 的 子 进程 ， 当 各 个 客户 连接 到 达 时 ， 这 些 子 进程 立即 就 能 为 它们 服务 。 
图 30-8 展 示 了 服务 器 父 进 程 预先 派生 出 N 个 子 进程 且 正 有 2 个 客户 连接 着 的 情形 。 

这 种 技术 的 优点 在 于 无 须 引 入 父 进程 执行 fork 的 开销 就 能 处 理 新 到 的 客户 。 缺点 则 是 父 进 
程 必须 在 服务 器 启动 阶段 猜测 需要 预先 派生 多 少子 进程 。 如 果 某 个 时 刻 客户 数 恰好 等 于 子 进程 
总 数 ， 那 么 新 到 的 客户 将 被 忽略 ， 直 到 至 少 有 一 个 子 进程 重新 可 用 。 然 而 回顾 4.5 节 ， 我 们 知道 
这 些 客户 并 未 被 完全 忽略 。 内 核 将 为 每 个 新 到 的 客户 完成 三 路 握手 ， 直 到 达到 相应 套 接 字 上 
listen 调 用 的 backlog 数 为 止 ， 然 后 在 服务 器 调用 accept 时 把 这 些 已 完成 的 连接 传递 给 它 。 这 
么 一 来 客户 就 能 觉察 到 服务 器 在 响应 时 间 上 的 恶化 ,因为 尽管 它 的 connect 调 用 可 能 立即 返回 ， 
但 是 它 的 第 一 个 请 求 可 能 是 在 一 段 时 间 之 后 才 被 服务 器 处 理 。 
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可 用 子 进程 池 


图 30-8 ”服务 器 预先 派生 子 进程 


通过 增加 一 些 代码 ， 服 务 器 总 能 应 对 客户 负载 的 变动 。 父 进程 必须 做 的 就 是 持续 监视 可 用 
〈 即 闲置 ) 子 进 程 数 ， 一 旦 该 值 降 到 低 于 某 个 阔 值 就 派生 额外 的 子 进程 。 同 样 ， 一 旦 该 值 超过 另 
一 个 阅 值 就 终止 一 些 过剩 的 子 进程 ， 因 为 在 本 章 后 面 我 们 会 发 现 过 多 的 可 用 子 进程 也 会 导致 性 
能 退化 。 

不 过 在 考虑 这 些 增 强 之 前 ， 我 们 首先 查看 这 类 服务 器 程序 的 基本 结构 。 图 30-9 给 出 了 我 们 
的 预先 派生 子 进程 服务 器 程序 第 一 个 版 本 的 main 函 数 。 





server/serv02.c 
1 #include "unp.h* 
2 static int nchildren; 
3 static pid t *pids; 
4 int 
5 main(int argc, char **argv) 
6 í 
7 int listenfd, i; 
8 socklen_t addrlen; 
9 void sig int(int); 
10 pid t child make(int, int, int); 
11 if (argc -- 3) 
12 listenfd = Tcp listen(NULL, argv[1], &addrlen); 
13 else if (argc -- 4) 
14 listenfd - Tcp listen(argv(1], argv[2], &addrlen); 
15 else 
16 err quit("usage: serv02 [ «host» ] «ports» <#children>") ; 
17 nchildren = atoi(argv[argc-1]); 
18 pids - Calloc(nchildren, sizeof(pid t)); 
19 for (i = 0; i « nchildren; i++) 
20 pids[i] = child make(i, listenfd, addrlen); /* parent returns */ 
21 Signal(SIGINT, sig int); 
22 for (2 3) 
23 pause(); /* everything done by children */ 
24 ) 
server/serv02.c 





图 30-9 ”预先 派生 子 进 程 服务 器 程序 main 函 数 
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11-18 增设 一 个 命令 行 参数 供用 户 指定 预先 派生 的 子 进程 个 数 。 分 配 一 个 存放 各 个 子 进程 ID 
的 数组 ， 用 于 在 父 进程 即将 终止 时 由 main 冰 数 终止 所 有 子 进 程 。 
19-20 ”调用 图 30-11 给 出 的 chil19_make 函 数 创建 各 个 子 进程 。 
如 图 30-10 所 示 的 SIGINT 信 号 处 理 函数 不 同 于 图 30-5。 





server/serv02.c 
25 void 
26 sig int(int signo) 
27 { 
28 int i; 
29 void pr.cpu time (void); 
30 /* terminate all children */ 
31 for (i = 0; i < nchildren; i++) 
32 kill(pids[i], SIGTERM); 
33 while (wait(NULL) » 0) /* wait for all children */ 
34 ; 
35 if (errno !- ECHILD) 
36 err sys("wait error"); 
37 pr cpu, time(); 
38 exit (0); 
39 } 


server/serv02.c 


图 30-10 SIGINT 信 和 号 处 理 函 数 


30-34 ”既然 getrusage 汇 报 的 是 已 终止 子 进 程 的 资源 利用 统计 ， 在 调用 pr_cpu_time 之 前 就 必 
须 终止 所 有 子 进程 。 我 们 通过 给 每 个 子 进程 发 送 sSIGTERM 信 号 终止 它们 ， 并 通过 调用 
wait 汇 集 所 有 子 进程 的 资源 利用 统计 。 

图 30-11 给 出 chila_make 函 数 ， 它 由 main 调 用 以 派生 各 个 子 进程 。 





server/child02.c 
1 #include "unp.h" 
2 pid t 
3 child make(int i, int listenfd, int addrlen) 
4t 
5 pid t pid; 
6 void child main(int, int, int); 
7 if ( (pid - Fork()) » 0) 
8 return (pid); /* parent */ 
9 child main(i, listenfd, addrlen); /* never returns */ 
10 ) 

server/child02.c 


图 30-11 chil9_make 函 数 : 派生 各 个 子 进 程 


7-9 调用 fork 派 生子 进程 后 只 有 父 进 程 返回 。 子 进程 调用 图 30-12 给 出 的 chila_main 函 数 ， 
它 是 个 无 限 循环 。 

20-25 ”每 个 子 进程 调用 accept 返 回 一 个 已 连接 套 接 字 ， 然 后 调用 web_child (图 30-7) 

处 理 客户 请 求 ， 最 后 关闭 连接 。 子 进程 一 直 在 这 个 循环 中 反复 ， 直 到 被 父 进程 终止 。 
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server/child02.c 
11 void 
12 child main(int i, int listenfd, int addrlen) 
13 ( 
14 int connfd; 
15 void web child(int); 
16 socklen t clilen; 
17 struct sockaddr *cliaddr; 
18 cliaddr = Malloc(addrlen); 
19 printf("child ld starting\n", (long) getpid()); 
20 for (3; ) { 
21 clilen = addrlen; 
22 connfd = Accept (listenfd, cliaddr, &clilen); 
23 web_child(connfd) ; /* process the request */ 
24 Close (connfd) ; 
25 ) 
26 } 
server/child02.c 





图 30-12 child mainke: 每 个 子 进程 执行 的 无 限 循环 


30.6.1 4.4BSD 上 的 实现 


如 果 你 从 未 见识 过 多 个 进程 在 同一 个 监听 描述 符 上 调用 accept,， 你 可 能 会 想 知道 这 到 底 是 
如 何 工作 的 。 我 们 暂且 偏离 一 下 正题 ， 看 看 在 源 自 Berkeley 的 内 核 中 这 是 如 何 实 现 的 (也 就 是 
TCPv2 中 给 出 的 分 析 )。 

父 进程 在 派生 任何 子 进 程 之 前 创建 监听 套 接 字 , 而 每 次 调用 fork 时 , 所 有 描述 符 也 被 复制 。 
图 30-13 展 示 了 proc 结 构 〈 每 个 进程 一 个 )、 监 听 描 述 符 的 单个 file 结 构 以 及 单个 socket 结 构 之 
间 的 关系 。 


proc() proc{} proc{} proc{} 





图 30-13 ”proc、file 和 socket 这 三 个 结构 之 间 的 关系 
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描述 符 只 是 本 进程 引用 file 结 构 的 proc 结 构 中 一 个 数组 中 某 个 元 素 的 下 标 而 已 。 fork 调 用 
执行 期 间 为 子 进程 复制 描述 符 的 特性 之 一 是 : 子 进程 中 一 个 给 定 描述 符 引 用 的 file 结 构 正 是 父 
进程 中 同一 个 描述 符 引 用 的 file 结 构 。 每 个 file 结 构 都 有 一 个 引用 计数 。 当 打开 一 个 文件 或 套 
接 字 时 ， 内 核 将 为 之 构造 一 个 file 结 构 ， 并 由 作为 打开 操作 返回 值 的 描述 符 引 用 ， 它 的 引用 计 
数 初 值 自然 为 1; 以 后 每 当 调 用 fork 以 派生 子 进程 或 对 打开 操作 返回 的 描述 符 ( 或 其 复制 品 》 
调用 aup 以 复制 描述 符 时 ， 该 File 结构 的 引用 计数 就 递增 〈 每 次 增 1)。 在 我 们 的 N 个 子 进 程 的 例 
子 中 ，file 结 构 的 引用 计数 为 Nt41〈 别 忘 了 父 进程 仍然 保持 该 监听 描述 符 打 开 着 ， 不 过 它 从 不 
调用 accept )。 

服务 器 进程 在 程序 启动 阶段 派生 N 个 子 进 程 ， 它 们 各 自 调 用 accept 并 因而 均 被 内 核 投 入 睡 
眠 〈TCPv2 第 458 页 140 行 )。 当 第 一 个 客户 连接 到 达 时 ， 所 有 个子 进程 均 被 唤醒 。 这 是 因为 所 
有 XN 个 子 进程 所 用 的 监听 描述 符 《〈 它 们 有 相同 的 值 ) 指向 同一 个 socket 结 构 ， 致 使 它们 在 同一 
个 等 待 通道 (wait channel) 即 这 个 socket 结 构 的 so_timeo 成 员 上 进入 睡眠 。 尽 管 所 有 N 个 子 进 
程 均 被 唤醒 ， 其 中 只 有 最 先 运 行 的 子 进 程 获得 那个 客户 连接 ， 其 余 N-1 个 子 进 程 继续 回复 睡眠 ， 
因为 当 它 们 执行 到 TCPv2 第 458 页 135 行 时 ， 将 发 现 队列 长 度 为 0( 因 为 最 先 运行 的 连接 早已 取 走 
了 本 就 只 有 一 个 的 连接 )。 

这 就 是 有 时 候 称 为 惊 群 (thundering herd) 的 问题 ， 因 为 尽管 只 有 一 个 子 进程 将 获得 连接 ， 
所 有 N 个 子 进程 却 都 被 唤醒 了 。 尽 管 如 此 这 段 代 码 依然 起 作用 ， 只 是 每 当 仅 有 一 个 连接 准备 好 
被 接受 时 却 唤醒 太 多 进程 的 做 法 会 导致 性 能 受 损 。 我 们 接着 测量 这 个 性 能 影响 。 


30.6.2 ” 子 进程 过 多 的 影响 


图 30-1 行 2 中 BSD/OS 服 务 器 值 为 1.8 的 CPU 时 间 其 测试 条 件 是 ， 预先 派生 15 个 子 进程 并 且 同 

时 存在 最 多 10 个 客户 。 为 了 测量 惊 群 问题 的 影响 ， 我 们 保持 同时 存在 的 最 大 客户 数 不 变 (10)， 

单纯 增长 预先 派生 的 子 进程 个 数 。” 因 为 单个 测试 结果 没有 什么 意义 ， 所 以 我 们 并 没有 给 出 子 
进程 个 数 增长 的 结果 。 超 过 10 个 子 进程 就 会 太 多 ， 惊 群 问题 会 更 严重 ， 计 时 也 会 增加 。 

某 些 Unix 内 核 有 一 个 往往 命名 为 wakeup_one 的 函数 ， 它 只 是 唤醒 等 待 某 个 事件 的 多 个 进 

程 中 的 一 个 , 而 不 是 唤醒 所 有 等 待 该 事件 的 进程 [ Schimmel 1994 ], BSD/OS 内 核 没有 这 样 的 函数 。 


30.6.8 ”连接 在 子 进程 中 的 分 布 


我 们 接着 查看 全 体 客户 连接 在 阻塞 于 accept 调 用 中 的 可 用 子 进程 池上 的 分 布 。 为 了 采集 这 
些 信息 ， 我 们 把 main 函 数 改 为 在 共享 内 存 区 中 分 配 一 个 长 整数 计数 器 数组 ， 每 个 子 进程 一 个 计 
数 器 。 所 增加 代码 如 下 ， 其 中 meter 函 数 在 图 30-14 中 给 出 。 

long *cptr, *meter(int); /* for counting #clients/child */ 

cptr = meter (nchildren); /* before spawning children */ 

在 分 配 共 享 内 存 区 时 ， 如 果 系 统 支持 〈 如 4.4BSD )， 我 们 就 使 用 匿名 内 存 映 射 (anonymous 
memory mapping)， 和 否则 使 用 /dev/zero 喘 射 ( 如 SVR4)。 既 然 该 数组 是 本 进程 在 尚未 派生 各 个 
子 进 程 之 前 调用 mmap 创 建 的 ， 它 将 由 本 进程 〈《 父 进程 》 和 后 来 fork 的 所 有 子 进程 所 共享 。 





O 我 们 在 图 30-1A 中 给 出 了 本 例子 ( 行 2) 和 将 在 以 后 相关 两 节 讨 论 的 另外 两 个 例子 ( 行 3 和 行 7) 的 CPU 时 间 。 本 
例子 〈 前 2 栏 ) 只 讨论 accept 阻 塞 ， 另 两 个 例子 〈 后 4 栏 ) 讨论 围绕 accept 的 上 锁 保护 。 
我 们 看 到 CPU 时 间 随 每 次 增加 另外 15 个 〈 不 必要 的 ) 的 子 进程 而 增加 。 为 了 避免 惊 群 问题 额外 导致 性 能 受 损 ， 
我 们 不 希望 有 太 多 的 额外 子 进程 一 直 闲 置 着 。 一 一 译 者 注 


827 
t 
829 
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MM Server/meter.c 
i #include "unp.h" 
2 #include <sys/mman.h> 


3 /* 

4 * Allocate an array of "nchildren" longs in shared memory that can 

5 * be used as a counter by each child of how many clients it services. 
6 * See pp. 467-470 of "Advanced Programming in the Unix Environment." 
7 


Ef 
8 long * 
9 meter(int nchildren) 
10 ( 
11 int fd; 
12 long *ptr; 


13 fifdef MAP ANON 


14 ptr = Mmap(0, nchildren *  sizeof(long), PROT READ | PROT WRITE, 
15 MAP ANON | MAP SHARED, -1, 0); 

16 #else 

17 fd - Open("/dev/zero", O RDWR, 0); 

18 ptr = Mmap(0, nchildren * sizeof(long), PROT READ | PROT WRITE, 
19 MAP SHARED, fd, 0); 

20 Close(fd); 

21 #endif 

22 return(ptr); 

23 ) 


server/meter.c 





图 30-14 ”在 共享 内 存 区 中 分 配 一 个 数组 的 meter 函 数 


然后 我 们 把 child_main 函 数 〈 图 30-12) 改 为 让 每 个 子 进程 在 accept 返 回 之 后 递增 各 自 的 
计数 器 ， 把 SITGINT 信 号 处 理 函 数 改 为 在 所 有 子 进程 终止 之 后 显示 这 个 计数 器 数组 。 

图 30-2 给 出 这 个 分 布 。 当 可 用 子 进 程 阻塞 在 accept 调 用 上 时 ， 内 核 调度 算法 把 各 个 连接 均 
匀 地 散布 到 各 个 子 进程 。 


30.6.4 select 冲突 


在 观察 4.4BSD 主 机 上 的 本 例子 时 ， 我 们 还 可 以 探究 另 一 个 难以 理解 却 又 罕见 的 现象 。 
TCPv2 的 16.13 节 提 到 过 select 函 数 的 冲突 (collision) 现象 以 及 内 核 如 何 处理 这 个 小 概率 问题 。 
当 多 个 进程 在 引用 同一 个 套 接 字 的 描述 符 上 调用 select 时 就 会 发 生 冲突 , 因为 在 socket 结 构 中 
为 存放 本 套 接 字 就 绪 之 时 应 该 唤醒 哪些 进程 而 分 配 的 仅仅 是 一 个 进程 ID 的 空间 。 如 果 有 多 个 进 
程 在 等 待 同 一 个 套 接 字 ， 那 么 内 核 必 须 唤醒 的 是 阻塞 在 select 调 用 中 的 所 有 进程 ， 因 为 它 不 知 
道 哪些 进程 受 刚 变 得 就 绪 的 这 个 套 接 字 影 响 。 

我 们 可 以 迫使 本 服务 器 程序 发 生 select 冲 突 ， 办 法 是 在 图 30-12 中 调用 accept 之 前 加 上 一 
个 select 调 用 ， 等 待 监听 套 接 字 变 为 可 读 。 各 个 子 进程 将 阻塞 在 select 调 用 而 不 是 accept 
调用 之 中 。 图 30-15 给 出 了 child_main 函 数 的 改动 部 分 ， 不 同 于 图 30-12 的 若干 行 通过 标 以 加 
号 指出 。 

如 此 修改 之 后 ， 通 过 检查 BSD/OS 内 核 的 nselcoll 计 数 器 在 服务 器 运行 前 后 的 变化 ， 我 们 
发 现 某 次 运行 本 服务 器 出 现 1814 个 冲突 ， 下 一 次 运行 出 现 2045 个 冲突 。 既 然 两 个 客户 为 每 次 运 
行 本 服务 器 总 共产 生 5000 个 连接 ， 这 两 个 结果 相当 于 约 有 35%~40% 的 select 调 用 引起 冲突 。 
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printf ("child $1d starting\n", (long) getpid()); 
FD_ZERO(&rset) ; 
for{; 3) ¢ 
FD SET(listenfd, &rset); 
Select(listenfd«1, &rset, NULL, NULL, NULL); 
if(FD ISSET(listenfd, &rset) == 0) 
err guit("listenfd readable"); 


十 


+ + t o + 


clilen = addrlen; 
connfd = Accept (listenfa@, cliaddr, &clilen); 


web chile(connfd); /* process the request */ 
Close (conntd); 


图 30-1$ ”把 图 30-12 变 为 阻塞 在 select 而 不 是 accept 中 的 改动 部 分 


如 果 比 较 本 例子 的 BSD/OS 服 务 器 CPU 时 间 ， 加 上 select 调 用 之 后 其 值 由 图 30-1 中 的 1.8 增 
长 到 2.9。 这 个 增长 的 原因 一 部 分 可 能 是 新 加 了 一 个 系统 调用 (由 只 是 调用 accept 改 为 调用 
select 和 accept )， 另 一 部 分 可 能 是 内 核 为 处 理 select 冲 突 而 引入 额外 开销 。 

从 以 上 讨论 我 们 可 以 得 出 如 下 经 验 : 如 果 有 多 个 进程 阻塞 在 引用 同一 个 实体 〈 例 如 套 接 字 
或 普通 文件 ， 由 file 结 构 直接 或 间接 描述 ) 的 描述 符 上 ， 那 么 最 好 直接 阻塞 在 诸如 accept 之 类 
的 函数 而 不 是 select 之 中 。 
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我 们 刚才 讲述 的 4.4BSD 实 现 允 许多 个 进程 在 引用 同一 个 监听 套 接 字 的 描述 符 上 调用 
accept， 然 而 这 种 做 法 也 仅仅 适用 于 在 内 核 中 实现 accept 的 源 自 Berkeley 的 内 核 。 相 反 ， 作 为 
一 个 库 函 数 实现 accept 的 System V 内 核 可 能 不 允许 这 么 做 。 事 实 上 如 果 我 们 在 基于 SVR4 的 
Solaris 2.5 内 核 上 运行 上 一 节 的 服务 器 程序 ， 那 么 客户 开始 连接 到 该 服务 器 后 不 久 ， 某 个 子 进程 
的 accept 就 会 返回 EPROTO 错 误 (表示 协议 有 错 )。 


造成 本 问题 的 原因 在 于 SVR4 的 流 实现 机 制 ( 第 31 章 ) 和 库 函 数 版 本 的 accept 并 非 一 个 
原子 操作 这 一 事实 。 Solaris 2.6 修 复 了 这 个 问题 ,不 过 大 多 数 其 他 SVR4 实 现 仍然 存在 这 个 问题 。 


解决 办 法 是 让 应 用 进程 在 调用 accept 前 后 安置 某 种 形式 的 锁 (lock), 这 样 任意 时 刻 只 有 一 
个 子 进程 阻塞 在 accept 调 用 中 ， 其 他 子 进程 则 阻塞 在 试图 获取 用 于 保护 accept 的 锁 上 。 

正如 本 系列 丛书 第 二 卷 所 述 ， 我 们 有 多 种 方法 可 用 于 提供 包 绕 accept 调 用 的 上 锁 功 能 。 本 
节 我 们 使 用 以 fcnti 函 数 呈 现 的 POSIX 文 件 上 锁 功 能 。 

main 函 数 〈 图 30-9) 的 唯一 改动 是 在 派生 子 进程 的 循环 之 前 增加 “个 对 我 们 的 
my_lock_init 函 数 的 调用 





my lock init("/tmp/lock.XXXXXX") ; /* one lock file for all children */ 
for (i = 0; i < nchildren; i++) 
pids[i] = child make(i, listenfd, addrlen); /* parent returns */ 


child_make 函 数 仍然 是 图 30-11。chila_main 函 数 (图 30-12) 的 唯一 改动 是 在 调用 accept 
之 前 获取 文件 锁 ， 在 accept 返 回 之 后 释放 文件 锁 。 


for faa 31 
clilen = addrlen; 
+ my lock wait(); 
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connfd = Accept(listenfd, cliaddr, &clilen); 
my lock release(); 


web, child(connfd); /* process request */ 
Close (connfd); 


) 


图 30-16 给 出 了 使 用 POSIX 文 件 上 锁 功 能 的 my_lock_init 函 数 。 


13~20 


server/lock_fentl.c 
#include "unp.h" 
Static struct flock lock it, unlock it; 
static int lock fd - -1; 
/* fcntl() will fail if my lock init() not called */ 

void 
my lock init(char *pathname) 
( 

char lock file(1024]; 


/* must copy caller's string, in case it's a constant */ 
strncpy (lock file, pathname, sizeof(lock file)); 
lock fd - Mkstemp(lock file); 


Unlink(lock file); /* but lock fd remains open */ 


lock it.l type = F WRLCK; 
lock it.l whence - SEEK SET; 
lock it.l start - 0; 

lock it.1l len = 0; 


unlock it.l type - F UNLCK; 
unlock it.l whence = SEEK SET; 
unlock it.l start = 0; 

unlock it.1 len = 0; 


server/lock fcntl.c 


图 30-16 ”使 用 POSIX 文 件 上 锁 功 能 的 my_lock_init 函 数 


调用 者 将 一 个 路 径 名 模板 指定 为 my_lock_init 的 函数 参数 , mktemp 函 数 根据 该 模板 创 
建 一 个 唯一 的 路 径 名 。 本 函数 随后 创建 一 个 具备 该 路 径 名 的 文件 并 立即 unlink 掉 。 通 
过 从 文件 系统 目录 中 删除 该 路 径 名 ， 以 后 即使 程序 崩溃 ， 这 个 临时 文件 也 完全 消失 。 

然而 只 要 有 一 个 或 多 个 进程 打开 着 这 个 文件 〈 也 就 是 说 它 的 引用 计数 大 于 0)， 该 文件 
本 身 就 不 会 被 删除 。( 这 也 是 从 某 个 目录 中 删除 一 个 路 径 名 与 关闭 一 个 打开 着 的 文件 
的 本 质 差别 。) 

初始 化 两 个 Elock 结 构 ， 一 个 用 于 上 锁 文 件 , 一 个 用 于 解锁 文件 。 文件 上 锁 范 围 起 自 字 
节 偏 移 量 0 (1_whence 值 为 SEEK_SET，1_start 值 为 0)， 跨 越 整个 文件 (1_len 值 为 0， 
表示 锁 住 整个 文件 或 到 文件 尾 )。 我 们 并 不 往 该 文件 中 写 任 何 东西 〈 其 长 度 总 为 0)， 不 
过 这 是 可 行 的 ， 内 核 照 常 正确 地 处 理 这 个 劝告 性 锁 Cadvisory lock). 


作者 ( Stevens 先 生 ) 在 声明 这 两 个 结构 时 一 开始 使 用 如 下 语句 初始 化 它们 : 


static struct flock lock it = ( F WRLCK, 0, 0, 0, 0 ); 

static struct flock unlock it - ( F UNLCK, 0, 0, 0, 0 ); 
然而 这 么 做 存在 两 个 问题 。 首先 ， 常 值 SEEK_SET 为 0 并 无 保证 。 更 重要 的 是 ，POSIX 不 保证 
flock 结 构 中 各 成 员 的 顺序 。 在 Solaris 和 Digital Unix 上 1_type 是 第 一 个 成 员 ， 在 BSD/OS 上 它 
却 不 是 。POSIX 只 是 保证 该 结构 中 存在 POSIX 必 需 的 成 员 ， 却 不 保证 它们 的 前 后 顺序 ， 更 何 
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况 它 还 允许 该 结构 中 出 现 非 POSIX 的 额外 成 员 。 因 此 除非 把 它 初始 化 为 全 0， 否 则 总 应 该 以 真 
正 的 C 代 码 初始 化 一 个 结构 ， 而 不 应 该 在 分 配 该 结构 时 以 初始 化 算 子 (initilizer ) 初始 化 它 。 
这 个 规则 的 例外 是 结构 初始 化 算 子 由 实现 具体 提供 的 情形 。 举 例 来 说 ， 我 们 在 第 26 章 中 
初始 化 Pthread 互 斥 锁 时 所 写 代 码 为 : 
pthread mutex t mlock = PTHREAD, MUTEX INITIALIZER; 


其 中 pthread_mutex_t 数 据 类 型 通常 是 一 个 结构 ， 然 而 该 初始 化 算 子 是 由 实现 提供 的 ， 
来 自 不 同 实现 的 该 算 子 可 以 不 一 样 。 


图 30-17 给 出 了 用 于 上 锁 和 解锁 文件 的 两 个 函数 。 它 们 仅仅 使 用 我 们 在 图 30-16 中 初始 化 过 
的 结构 调用 fcnt1。 


22 void 

23 my lock wait() 
24 ( 

25 int rc; 


= So — — — — — —server/lock fentl.c 


26 while ( (rc = fcntl(lock fd, F SETLKW, &lock it)) < 0) ( 
27 if (errno -- EINTR) 

28 continue; 

29 else 

30 err sys("fcntl error for my lock wait"); 


33 void 
34 my, lock release() 
35 ( 
36 if (fcntl(1lock fd, F SETLKW, &unlock it) < 0) 
37 err sys("fcntl error for my lock release"); 
——— — ——— — — —server/lock fcntl.c 


图 30-17 ”使 用 fcnt1 的 my_lock_wait 和 my_lock_redqease 函 数 


现在 这 个 新 版 本 的 预先 派生 子 进程 服务 器 程序 在 SVR4 系 统 上 照样 可 以 工作 , 因为 它 保证 每 
次 只 有 一 个 子 进程 阻塞 在 accept 调 用 中 。 对 比 图 30-1 中 Digital Unix 和 BSD/OS 服 务 器 的 行 2 和 行 
3， 我 们 看 到 这 种 围绕 accept 的 上 锁 增 加 了 服务 器 的 进程 控制 CPU 时 间 。 


Apache Web 服 务 器 程序 版 本 1.1 ( http://www.apache.org ) 在 预先 派生 子 进程 之 后 ， 如 果实 
现 允许 所 有 子 进程 都 阻塞 在 accept 调 用 中 ， 那 就 使 用 上 一 节 介 绍 的 技术 ， 否 则 就 使 用 本 节 介 
绍 的 包 绕 accept 的 文件 上 锁 技术 。 


30.7.1. 子 进 程 过 多 的 影响 


我 们 可 以 查看 本 版 本 的 预先 派生 子 进程 服务 器 程序 是 否 照常 存在 上 一 节 中 讲解 的 惊 群 现 
象 。 图 30-1A 给 出 了 增加 非 必要 子 进程 数 的 结果 。 在 使 用 文件 上 锁 保 护 accept 的 Solaris 一 栏 中 ， 
我 们 只 能 测 得 子 进程 数 在 75 以 内 ( 含 75) 的 结果 ， 因 为 测量 下 一 个 步 跳 《90)〉 引起 CPU 时 间 剧 
增 。 一 个 可 能 的 原因 是 系统 因 进程 过 多 而 耗 尽 内 存 ， 导 致 开 始 对 换 。 
30.7.2， 连 接 在 子 进程 中 的 分 布 


我 们 可 以 使 用 图 30-14 给 出 的 函数 查看 全 体 客户 连接 在 可 用 子 进程 池上 的 分 布 。 图 30-2 给 出 
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了 结果 。 所 有 3 个 操作 系统 都 均匀 地 把 文件 锁 散 布 到 等 待 进程 中 。 


30.8 TCP 预先 派生 子 进程 服务 器 程序 , accept 使 用 线程 上 锁 保护 


我 们 提 过 有 多 种 方法 可 用 于 实现 进程 之 间 的 上 锁 。 上 一 节 使 用 的 POSIX 文 件 上 锁 方法 可 移植 
到 所 有 POSIX 兼 容 系 统 ， 不 过 它 涉及 文件 系统 操作 ， 可 能 比较 耗 时 。 本 节 我 们 改 用 线程 上 锁 保 护 
accept, 因为 这 种 方法 不 仅 适 用 于 同一 进程 内 各 线程 之 问 的 上 锁 , 而 且 适 用 于 不 同 进程 之 间 的 上 锁 。 

为 了 使 用 线程 上 锁 ， 我 们 的 main、child_make 和 child_ main 函数 都 保持 不 变 ， 唯 一 需要 
改动 的 是 那 3 个 上 锁 函 数 。 在 不 同 进程 之 间 使 用 线程 上 锁 要 求 : CI) 互 斥 锁 变 量 必须 存放 在 由 所 
有 进程 共享 的 内 存 区 中 ; (2) 必须 告知 线程 函数 库 这 是 在 不 同 进程 之 间 共 享 的 互 斥 锁 。 


这 同样 要 求 线程 库 支持 PTHREAD_RPOCESS_SHARED 属 性 。® 


正如 本 系列 从 书 第 二 卷 所 述 ， 我 们 有 多 种 方法 可 用 于 在 不 同 进程 之 间 共 享 内 存 空间 。 在 本 
节 的 例子 中 我 们 使 用 mmap 函 数 以 及 /Gev/zero 设 备 ， 它 在 Solaris: 和 其 他 SVR4 内 核 上 均 可 运行 。 
图 30-18 给 出 了 新 版 本 的 my_lock_init 函 数 。 


server/lock pthread.c 
1 #include "unpthread.h" 
2 #include <sys/mman.h> 
3 static pthread mutex t  *mptr; /* actual mutex will be in shared memory */ 
4 void 
5 my lock init(char *pathname) 
6 { 
7 int fd; 
8 pthread mutexattr t mattr; 
9 fd - Open("/dev/zero", O RDWR, 0); 
10 mptr = Mmap(0, sizeof (pthread mutex t), PROT READ | PROT. WRITE, 
11 MAP, SHARED, fd, 0); 
12 Close(fd); 
13 Pthread mutexattr init(&mattr); 
14 Pthread mutexattr, setpshared(&mattr, PTHREAD PROCESS, SHARED); 
15 Pthread mutex init(mptr, &mattr); 
16 ) 
server/lock pthread.c 





图 30-18 ”在 进程 之 间 使 用 Pthread 上 锁 的 my_lock_init 函 数 


9-12 ”打开 /dev/zero 然 后 调用 mmap。 所 映射 的 字 节 数 是 一 个 pthread_mutex_t 类 型 变量 的 
大 小 。 随 着 关闭 描述 符 ， 这 么 做 是 可 行 的 ， 因 为 该 描述 符 已 被 内 存 映射 了 。 

13-15 ”在 先前 的 Pthread 互 斥 锁 例子 中 , 我 们 使 用 常 值 PTHREAD_MUTEX_INITIALIZER 初 始 化 全 
局 或 静态 互 斥 锁 变量 (例如 图 26-18)。 然 而 对 于 一 个 存放 在 共享 内 存 区 中 的 互 斥 锁 ， 
我 们 必须 调用 一 些 Pthread 库 函数 以 告知 该 函数 库 ， 这 是 一 个 位 于 共享 内 存 区 中 的 互 斥 
锁 ， 将 用 于 不 同 进程 之 间 的 上 锁 。 我 们 首先 为 一 个 互 斥 锁 以 默认 属性 初始 化 一 个 
pthread mutexattr 上 结构 ， 然 后 赋予 该 结构 PTHREAD_PROCESS_SHARED 属 性 〈 该 属 
性 的 默认 值 为 PTHREAD_PROCESS_PRIVATE， 即 只 允许 在 单个 进程 内 使 用 )。 最 后 调用 


(D Digitial Unix 4.0b 不 支持 这 个 属性 ， 也 就 无 法 运行 这 个 新 版 本 的 服务 器 程序 。 一 — 译 者 注 
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pthread_mutex_init 函 数 以 这 些 属 性 初始 化 共享 内 存 区 中 的 互 斥 锁 。 
图 30-19 给 出 了 新 版 本 的 my_1lock_wait 和 my_1lock_release 函 数 。 每 个 函数 仅仅 调用 一 个 
Pthread 函 数 以 上 锁 或 解锁 互 斥 锁 。 


17 void 

18 my. lock wait() 

19 ( 

20 Pthread mutex lock (mptr) ; 
21} 





server/lock_pthread.c 


22 void 
23 my lock release() 
24 ( 
25 Pthread mutex unlock (mptr); 
26 } 
M ————— —  — — —— server/lock pthread.c 


图 30-19 ”使 用 Pthread 上 锁 的 my_lock_wait 和 my_lock_release 
比较 图 30-1 中 Solaris 服 务 器 的 行 3 和 行 4， 我 们 看 到 线程 互 斥 锁 上 锁 快 于 文件 上 锁 。 


30.9 TOP 预先 派生 子 进程 服务 器 程序 ， 传 递 描述 符 


对 预先 派生 子 进程 服务 器 程序 的 最 后 一 个 修改 版 本 是 只 让 父 进程 调用 accept，, 然后 把 所 接 
受 的 已 连接 套 接 字 “传递 ”给 菜 个 子 进程 。 这 么 做 绕 过 了 为 所 有 子 进程 的 accept 调 用 提供 上 锁 
保护 的 可 能 需求 ， 不 过 需要 从 父 进程 到 子 进程 的 某 种 形式 的 描述 符 传 递 。 这 种 技术 会 使 代码 多 
少 有 点 复杂 ， 因 为 父 进程 必须 跟踪 子 进程 的 忙 亲 状态， 以 便 给 空闲 子 进 程 传递 新 的 套 接 字 。 

在 以 前 的 预先 派生 子 进程 的 例子 中 ， 父 进程 无 需 关 心 由 哪个 子 进程 接收 一 个 客户 连接 。 操 
作 系 统 处 理 这 个 细节 ， 给 予 某 个 子 进程 以 首先 调用 accept 的 机 会 ， 或 者 给 予 某 个 子 进程 以 所 需 
的 文件 锁 或 互 斥 锁 。 图 30-2 的 前 5 栏 同时 表明 我 们 测量 的 3 个 操作 系统 以 公平 的 轮 循 方式 执行 这 
种 选择 。 

然而 对 于 当前 的 预先 派生 子 进程 例子 ,我 们 必须 为 每 个 子 进程 维护 一 个 信息 结构 以 便 管理 。 
图 30-20 给 出 的 chila.h 头 文件 定义 了 我 们 的 child 结 构 。 


server/child.h 
1 typedef struct ( 
2 pid t child pid; /* process ID */ 
3 int child pipefd; /* parent's stream pipe to/from child */ 
4 int child status; /* 0 = ready */ 
5 long child count; /* # connections handled */ 
6 ) Child 
7 Child *cptr; /* array of Child structures; calloc'ed */ 
——————————— server/child.h 





图 30-20 _ child 结构 


我 们 在 该 结构 中 存放 相应 子 进程 的 进程 ID、 父 进程 中 连接 到 该 子 进程 的 字 节 流 管道 描述 
符 、 子 进程 状态 以 及 该 子 进程 已 处 理 客户 的 计数 。 我 们 的 SIGINT 信 号 处 理 函 数 将 在 终止 程序 前 
显示 各 个 子 进程 的 这 个 计数 器 值 ， 以 便 观察 全 体 客户 请 求 在 各 个 子 进程 之 间 的 分 布 。 

我 们 首先 查看 图 30-21 给 出 的 chila_make 函 数 。 在 调用 fork 之 前 先 创 建 一 个 字 节 流 管道 ， 
它 是 一 对 Unix 域 字 节 流 套 接 字 (第 15 章 )。 派 生出 子 进程 之 后 ， 父 进程 关闭 其 中 一 个 描述 符 
(sockfd[1] )， 子 进程 关闭 另 一 个 描述 符 〈soeckfa[0] )。 子 进程 还 把 流 管道 的 自身 拥有 端 
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(sockfa[1] ) 复制 到 标准 错误 输出 ， 这 样 每 个 子 进程 就 通过 读 写 标准 错误 输出 和 父 进 程 通信 。 


父子 进程 之 间 的 关系 如 图 30-22 所 示 。 








server/child05.c 


server/child05.c 


1 #include "unp.h" 

2 #include "chiid.h* 

3 pid t 

4 child make(int i, int listenfd, int addrlen) 

S 

6 int sockfd[2]; 

7 pid t pid; 

8 void child_main(int, int, int); 

9 Socketpair(AF_LOCAL, SOCK STREAM, 0, sockfd); 

10 if ( (pid - Fork()) » 0) ( 

11 Close(sockfd[11); 

12 cptr[il.child pid - pid; 

13 cptr[il].child pipefd = sockfd[0]; 

14 cptr[il].child status = 0; 

15 return (pid) ; /* parent */ 

16 } 

17 Dup2(sockfd[1], STDERR FILENO); /* child's stream pipe to parent */ 
18 Close(sockfd[0]); 

19 Close(sockfd([1]):; 
20 Close (listenfd) ; /* child does not need this open */ 
21 child main(i, listenfd, addrlen); /* never returns */ 

22 } 

图 30-21 ”描述 符 传递 式 预先 派生 子 进程 服务 器 程序 的 chilG_make 函 数 
EA 
stderr ct sockfd[0 
图 30-22 ”父子 进程 各 自 关 闭 一 端 后 的 字 节 流 管道 

所 有 子 进 程 均 派 生 之 后 的 进程 关 


系 如 图 30-23 所 示 。 我 们 关闭 每 个 子 进 
程 中 的 监听 套 接 字 ， 因 为 只 有 父 进 程 
才 调 用 accept。 父 进程 必须 处 理 监听 
套 接 字 以 及 所 有 字 节 流 套 接 字 。 正 如 
你 可 能 猜想 的 那样 ， 父 进程 使 用 
select 多 路 选择 它 的 所 有 描述 符 。 

图 30-24 给 出 main 函 数 。 相 比 本 函 
数 以 前 各 个 版 本 的 变动 在 于 : 分 配 描 
述 符 集 ， 打 开 与 监听 套 接 字 以 及 到 各 
个 子 进程 的 字 节 流 管道 对 应 的 位 ; 计 
算 最 大 描述 符 值 ; 分 配 chi16 结 构 数 组 
的 内 存 空间 ， 主 循环 由 一 个 select 调 
用 驱动 。 





图 30-23 ”所 有 子 进程 都 派生 之 后 的 各 个 字 节 流 管道 
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1 #include "unp.h" 
2 #include "child.h" 


3 static int nchildren; 


server/serv05.c 


4 int 

5 main(int argc, char **argv) 

6 { 

7 int listenfd, i, navail, maxfd, nsel, connfd, rc; 

8 void sig int(int); 

9 pid t child make(int, int, int); 

10 ssize t n; 

11 fd set rset, masterset; 

12 Socklen, t addrlen, clilen; 

13 struct sockaddr *cliaddr; 

14 if (arge == 3) 

15 listenfd = Tcp_listen(NULL, argv[1], &addrlen); 

16 else if (argc == 4) 

17 listenfd = Tcp listen(argv[1], argv[2], &addrlen); 

18 else 

19 err_quit ("usage: serv05 [ «host» ] <port#> <#children>"); 
20 FD ZERO(&masterset); 

21 FD SET(listenfd, &masterset); 

22 maxfd - listenfd; 

23 cliaddr - Malloc(addrlen); 

24 nchildren - atoi(argv[argc - 11); 

25 navail - nchildren; 

26 cptr = Calloc(nchildren, sizeof(Child)); 

27 /* prefork all the children */ 

28 for (i = 0; i < nchildren; i++) ( 

29 child make(i, listenfd, addrlen); /* parent returns */ 
30 FD SET(cptr[i].child pipefd, &masterset); 

31 maxfd - max(maxfd, cptr[i].child pipefd); 

32 ) 

33 Signal(SIGINT, sig int); 

34 for (;;)t 

35 rset - masterset; 

36 if (navail «- 0) 

37 FD CLR(listenfd, &rset); /* turn off if no available children */ 
38 nsel - Select(maxfd « 1, &rset, NULL, NULL, NULL); 

39 /* check for new connections */ 

40 if (FD ISSET(listenfd, &rset)) { 

41 clilen - addrlen; 

42 connfd - Accept(listenfd, cliaddr, &clilen); 

43 for (i = 0; i < nchildren; i++) 

44 if (cptr[i].child status == 0) 

45 break; /* available */ 

46 if (i == nchildren) 

47 err quit(*no available children"); 

48 cptr[i].child status - 1; /* mark child as busy */ 
49 cptr(i].child count++; 

50 navail--; 

51 n = Write fd(cptr[i].child pipefd, "", 1, connfd); 
52 Close (connfd) ; 


图 30-24 ”使 用 描述 符 传递 的 main 函 数 
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53 if (--nsel == 0) 

















54 continue; /* all done with select() results */ 
55 } 
56 /* find any newly-available children */ 
57 for (i = 0; i < nchildren; i++) { 
58 if (FD_ISSET(cptr[i].child_pipefd, &rset)) { 
59 if ( (n = Read(cptr[i].child pipefd, &rc, 1)) == 0) 
60 err quit("child %d terminated unexpectedly", i); 
61 cptr[il.child status = 0; 
62 navail«*; 
63 if (--nsel -- 0) 
64 break; /* all done with select() results */ 
65 } 
66 } 
67 } 
68 } 
——— — server/serv05.c 
30-24 (4) 
如 果 无 可 用 子 进程 则 关 掉 监听 套 接 字 


36-37 计数 器 navail 用 于 跟踪 当前 可 用 的 子 进程 数 。 如 果 其 值 为 0， 那 就 从 select 的 读 描述 符 
集中 关 掉 与 监听 套 接 字 对 应 的 位 。 这 么 做 防止 父 进程 在 无 可 用 子 进程 的 情况 下 accept 
新 连接 。 内 核 仍 然 将 这 些 外 来 连接 排 入 队列 ， 直 到 达到 1isten 的 backlog 数 为 止 ， 不 过 
我 们 在 没有 得 到 已 准备 好 处 理 客 户 的 子 进程 之 前 不 想 accept 它 们 。 

accept 新 连接 

39-55 “如果 监听 套 接 字 变 为 可 读 , 那 就 有 一 个 新 连接 准备 好 accept 。 我 们 找 出 第 一 个 可 用 (〈 即 
WE) 的 子 进程 ， 并 使 用 图 15-13 中 的 write_fa 函 数 把 就 绪 的 已 连接 套 接 字 传递 给 该 子 
进程 。 我 们 随 作为 辅助 数据 传递 的 描述 符 写 出 一 个 单字 节 的 普通 数据 ， 不 过 接收 进程 
并 不 查看 该 字 节 的 内 容 。 父 进程 随后 关闭 这 个 已 连接 套 接 字 。 

我 们 总 是 从 chila 结 构 数组 的 第 一 个 元 素 开 始 搜索 可 用 子 进程 。 这 一 点 意味 着 该 数 

组 中 靠 前 排列 的 子 进程 总 是 比 靠 后 排列 的 子 进程 更 优先 接收 新 的 连接 。 我 们 将 在 讨论 
图 30-2 以 及 查看 服务 器 终止 后 的 child_count 计 数值 时 验证 这 个 结论 ,如 果 不 希 望 偏向 
于 较 早 的 子 进 程 , 我 们 可 以 记 住 最 近 一 次 接收 新 连接 的 子 进程 在 child 结 构 数组 中 的 位 
置 ， 下 一 次 搜索 就 从 该 位 置 紧 后 开始 ， 如 果 到 达 数 组 末端 就 环绕 回 第 一 个 元 素 。 不 过 
这 么 做 没有 什么 优势 《如果 有 多 个 子 进 程 可 用 ， 那 么 由 哪个 子 进程 处 理 一 个 客户 请 求 
无 关 紧 要 )， 除 非 操作 系统 进程 调度 算法 惩罚 ( 即 降低 其 优先 级 ) 总 CPU 时 间 较 长 的 进 
程 。 如 果 在 各 个 子 进程 之 间 更 为 均匀 地 分 摊 负 荷 ， 那 么 每 个 子 进程 在 各 自 的 总 CPU 时 
间 上 更 趋 于 一 致 。 

处 理 新 近 可 用 的 子 进程 

56-66 我们 将 看 到 childa_main 函 数 在 调用 子 进 程 处 理 完 一 个 客户 之 后 ， 通 过 该 子 进程 的 字 节 
流 管道 拥有 端 向 父 进程 写 回 单个 字 节 。 这 使 得 该 字 节 流 管道 的 父 进程 拥有 端 变 为 可 读 。 
父 进程 读 入 这 个 单字 节 (忽略 其 值 )， 把 该 子 进程 标 为 可 用 ， 并 递增 navail 计 数 器 。 要 
是 该 子 进 程 意外 终止 ， 它 的 字 节 流 管道 拥有 端 将 被 关闭 ， 因 而 reaq 将 返回 0。 父 进程 察 
觉 到 之 后 就 终止 运行 ， 不 过 更 好 的 做 法 是 登记 这 个 错误 ， 并 重新 派生 一 个 子 进 程 取 代 
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意外 终止 的 那个 子 进程 。 
图 30-25 给 出 了 chilg_main 函 数 。 
server/child05.c 
23 void 
24 child main(int i, int listenfd, int addrlen) 
25 { 
26 char c; 
27 int connfd; 
28 ssize_t n; 
29 void web_child(int); 
30 printf ("child ld starting\n", (long) getpid({)); 
31 for (3: ) { 
32 if ( (n = Read fd(STDERR FILENO, &c, 1, &connfd)) == 0) 
33 err quit("read fd returned 0"); 
34 if (connfd « 0) 
35 err quit("no descriptor from read fà"); 
36 web child(connfd); /* process request */ 
37 Close (connfd) ; 
38 Write(STDERR_FILENO, "", 1); /* tell parent we're ready again */ 
39 } 
40 } 
- server/child05.c 





图 30-25 ”描述 符 传递 式 预先 派生 子 进程 服务 器 程序 的 chila_main 函 数 
等 待 来 自 父 进程 的 描述 符 
32-33 ”这 个 函数 不 同 于 前 两 节 中 的 版 本 ， 因 为 这 儿 的 子 进 程 不 再 调用 accept， 而 是 阻塞 在 
read_fd 调 用 中 ， 等 待 父 进程 传递 过 来 一 个 已 连接 套 接 字 描述 符 。 
告知 父 进程 已 准备 好 
38 ”完成 客户 处 理 之 后 ， 子 进程 通过 它 的 字 节 流 管道 拥有 端 写 出 一 个 字 节 ， 告 知 父 进程 本 
子 进程 已 可 用 〈 即 闲置 )。 
在 图 30-1 中 ， 比 较 Solaris 服 务 器 的 行 4 和 行 5， 我 们 看 到 本 服务 器 慢 于 上 一 节 中 在 子 进程 之 
间 使 用 线程 上 锁 的 服务 器 。 再 比较 Digtial Unix 和 BSD/OS 服 务 器 的 行 3 和 行 5, 我 们 得 出 类 似 的 结 
ie: 父 进程 通过 字 节 流 管道 把 描述 符 传递 到 各 个 子 进程 ， 并 且 各 个 子 进程 通过 字 节 流 管道 写 回 
单个 字 节 ， 无 论 是 比 使 用 共享 内 存 区 中 的 互 斥 锁 ， 还 是 与 使 用 文件 锁 实施 的 上 锁 和 解锁 相 比 都 
更 费时 。 
图 30-2 给 出 child 结 构 中 chila_count 计 数 器 值 的 分 布 ， 它 是 在 终止 服务 器 时 由 SIGINT 信 
号 处 理 函 数 显 示 的 。 正 如 我 们 随 图 30-24 所 作 的 讨论 ， 越 早 派生 从 而 在 child 结 构 数组 中 排 位 越 
靠 前 的 子 进程 所 处 理 的 客户 数 越 多 。 
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30.10 TCP 并 发 服务 器 程序 ， 每 个 客户 一 个 线程 


最 近 5 节 着 眼 于 每 个 客户 一 个 进程 的 服务 器 ， 或 为 每 个 客户 现场 fork 一 个 子 进程 ， 或 者 预 
先 派生 一 定数 目的 子 进程 。 如 果 服 务 器 主机 支持 线程 ， 我 们 就 可 以 改 用 线程 以 取代 子 进 程 。 

图 30-26 给 出 了 我 们 的 第 一 个 创建 线程 的 服务 器 程序 版 本 。 它 是 图 30-4 的 一 个 修改 版 本 ， 也 
就 是 为 每 个 客户 创建 一 个 线程 ， 以 取代 为 每 个 客户 派生 一 个 子 进程 。 这 个 版 本 非常 类 似 图 26-3。 
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-一 一 server/serv06. 


1 #include "unpthread.h" 
2 int 
3 main(int argc, char **argv) 
4{ 
5 int listenfd, connfd; 
6 void sig int(int); 
7 void *doit(void *); 
8 pthread t tid; 
9 socklen t clilen, addrlen; 
10 struct sockaddr *cliaddr; 
11 if (argc == 2) 
12 listenfd = Tcp listen(NULL, argv[1], &addrlen); 
13 else if (argc == 3) 
14 listenfd = Tcp listen(argv[1], argv[2], &addrlen); 
15 else 
16 err quit("usage: serv06 [ «host» ] <port#>"); 
17 cliaddr - Malloc(addrlen); 
18 Signal(SIGINT, sig int); 
19 for (;;) í 
20 clilen - addrlen; 
21 connfd - Accept(listenfd, cliaddr, &clilen); 
22 i Pthread create(&tid, NULL, &doit, (void *) connfd); 
23 ) 
24 ) 
25 void * 
26 doit(void *arg) 
27 ( 
28 void web child(int); 
29 Pthread detach(pthread self()); 
30 web child((int) arg); 
31 Close((int) arg); 
32 return (NULL); 
33 ) 
AES server/serv06.c 
图 30-26 ”创建 线程 TCP 服 务 器 程序 的 main 函 数 
主线 程 循环 


19-23 ”主线 程 大 部 分 时 间 阻 塞 在 一 个 accept 调 用 之 中 ， 每 当 它 返回 一 个 客户 连接 时 ， 就 调用 
pthread_create 创 建 一 个 新 线程 。 新 线程 执行 的 函数 是 Goit， 其 参数 是 所 返回 的 已 连 


BERT. 

每 个 线程 的 函数 

25-33 doit 函 数 先 让 自己 脱离 , 使 得 主线 程 不 必 等 待 它 , 然后 调用 web_client 函 数 ( 图 30-3)。 
该 函数 返回 后 关闭 已 连接 套 接 字 。 


图 30-1 表 明 这 个 简单 的 创建 线程 版 本 在 Solaris 和 Digital Unix 上 都 快 于 所 有 预先 派生 子 进程 
的 版 本 .这 个 为 每 个 客户 现场 创建 一 个 线程 的 版 本 比 为 每 个 客户 现场 派生 一 个 子 进程 的 版 本 ( 行 
D 快 许多 倍 。 


我 们 曾 在 26.5 节 指出 ， 有 3 个 办 法 可 用 于 将 非 线 程 安全 函数 转变 成 线程 安全 函数 .我 们 的 
web_child 函 教 调用 readline 函 数 ， 而 图 3-18 给 出 的 readaline 玛 数 版 本 是 非 线 程 安全 的 。 我 
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们 针对 图 30-26 中 的 例子 运用 26.5 节 中 第 二 和 第 三 个 办 法 并 测 时 , 结果 从 第 三 个 办 法 到 第 二 个 
办 法 的 加 速 比 少 于 19%， 也 许 是 因为 readline 仅 仅 用 于 读 入 来 自 客 户 的 5 字符 计数 值 而 已 的 缘 
故 。 因 此 为 了 简单 起 见 ， 我 们 给 本 章 中 创建 线程 的 服务 器 程序 使 用 图 3-17 给 出 的 效率 稍 低 却 
线程 安全 的 版 本 ， 


30.11 TCP 预先 创建 线程 服务 器 程序 ， 每 个 线程 各 自 accept 


我 们 已 从 本 章 早 先 的 讨论 获悉 预先 派生 一 个 子 进程 池 快 于 为 每 个 客户 现场 派生 一 个 子 进 
程 。 在 支持 线程 的 系统 上 ， 我 们 有 理由 预期 在 服务 器 启动 阶段 预先 创建 一 个 线程 池 以 取代 为 每 
个 客户 现场 创建 一 个 线程 的 做 法 有 类 似 的 性 能 加 速 。 本 服务 器 的 基本 设计 是 预先 创建 一 个 线程 
池 ， 并 让 每 个 线程 各 自 调用 accept。 取 代 让 每 个 线程 都 阻塞 在 accept 调 用 之 中 的 做 法 ， 我 们 改 
用 互 斥 锁 〈 类 似 于 30.8 节 ) 以 保证 任何 时 刻 只 有 一 个 线程 在 调用 accept。 这 里 没有 理由 使 用 文 
件 上 锁 保 护 各 个 线程 中 的 accept 调 用 ， 因 为 对 于 单个 进程 中 的 多 个 线程 ， 我 们 总 可 以 使 用 互 斥 
锁 达 到 同样 目的 。 

图 30-27 给 出 的 pthreaa07 .h 头 文件 定义 了 用 于 维护 关于 每 个 线程 若干 信息 的 Threaq 结 构 。 


一 一 一 一 server/pthread07.h 








1 typedef struct ( 

2 pthread t thread tid; /* thread ID */ 

3 long thread count; /* * connections handled */ 

4 ) Thread; 

5 Thread *tptr; /* array of Thread structures; calloc'ed */ 


6 int listenfd, nthreads; 

7 socklen t addrlen; 

8 pthread mutex t mlock; 

server/pthread07.h 





图 30-27 ptnread07.h3; X fF 


我 们 还 声明 了 一 些 全 局 变量 ， 臂 如 监听 套 接 字 描 述 符 和 一 个 需 由 所 有 线程 共享 的 互 斥 锁 变 
量 等 。 
图 30-28 给 出 了 main 函 数 。 


z server/serv07.c 
1 #include "unpthread.h" 
2 #include “pthread07.h" 





3 pthread mutex t mlock = PTHREAD MUTEX INITIALIZER; 


4 int 

5 main(int argc, char **argv) 

6 ( 

7 int i; 

8 void Sig int(int), thread make(int); 

9 if (argc == 3) 

10 listenfd - Tcp listen(NULL, argv[i], &addrlen); 

11 else if (argc -- 4) 

12 listenfd = Tcp listen(argv[1], argv[2], &addrlen); 
13 else 

14 err quit("usage: serv07 [ «host» ] «porti» <#threads>") ; 
15 nthreads - atoi(argv[argc - 1]); 


16 tptr = Calloc(nthreads, sizeof(Thread)); 








图 30-28 ”预先 创建 线程 TCP 服 务 器 程序 的 main 函 数 
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17 for (i = 0; i < nthreads; i++) 
18 thread_make (i); /* only main thread returns */ 
19 Signal (SIGINT, sig int); 
20 for (3; 3 ) 
21 pause (); /* everything done by threads */ 
22 ) 
server/serv07.c 
图 30-28 (58D 
图 30-29 给 出 了 函数 thread_make 和 thread_main。 
— _— server/pthread07.c 
1 #include "unpthread.h" 
2 #include "pthread07.h" 
3 void 
4 thread make(int i) 
5t 
6 void *thread main(void *); 
7 Ptnread create(&tptr[i].thread tid, NULL, &thread main, (void *) i); 
8 return; /* main thread returns */ 
9) 
10 void * 
11 thread main(void *arg) 
12 ( 
13 int connfd; 
14 void web child(int); 
15 socklen t clilen; 
16 struct sockaddr *cliaddr; 
17 cliaddr = Malloc(addrlen); 
18 printf("thread $d starting\n", (int) arg); 
19 for (; : ) í 
20 clilen = addrlen; 
21 Pthread_mutex_lock (&mlock) ; 
22 connfd = Accept (listenfd, cliaddr, &clilen); 
23 Pthread_mutex_unlock (&mlock) ; 
24 tptr[(int) arg) .thread_count++; 
25 web child(connfd); /* process request */ 
26 Close (connfd); 
27 } 
28 } 
server/pthread07.c 
图 30-29  thread_make#ilthread_mainkh 
创建 线程 
7 ”创建 线程 并 使 之 执行 thread_main 函 数 ， 该 函数 的 唯一 参数 是 本 线程 在 rhread 结 构 数 
组 中 的 下 标 。 
21-23 thread mainPR UE va accept Bi ci VII A pthread_mutex_lock#lpthread_mutex_ 
unlock 加 以 保护 。 


比较 图 30-1 中 Solaris 和 Digital Unix 服 务 器 的 行 6 和 行 7， 我 们 看 到 当前 的 最 务 器 版 本 快 于 为 
每 个 客户 现场 创建 一 个 线程 的 版 本 。 我 们 预期 如 此 ， 毕 竞 我 们 只 是 在 服务 器 启动 阶段 一 次 性 地 
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创建 线程 池 ， 而 不 是 每 来 一 个 客户 现场 创建 一 个 线程 。 事 实 上 在 这 两 个 主机 上 当前 版 本 的 服务 
器 是 所 有 版 本 之 中 最 快 的 。 

图 30-2 给 出 了 Thread 结 构 中 thread_count 计 数 器 值 的 分 布 ， 它 们 由 SIGINT 信 号 处 理 函 数 
在 服务 器 终止 前 显示 输出 。 这 个 分 布 的 均衡 性 是 由 线程 调度 算法 带 来 的 ， 该 算法 在 选择 由 哪个 
线程 接收 互 斥 锁 上 表现 为 按 顺 序 轮 循 所 有 线程 。 


在 诸如 Digital Unix 等 源 自 Berkeley 的 内 核 上 ， 我 们 不 必 为 调用 accept 而 上 锁 ， 因 而 可 以 
把 图 30-29 改 为 没有 互 斥 锁 上 锁 和 解锁 的 版 本 。 然 而 这 么 做 导致 进程 控制 CPU 时 间 由 图 30-1 中 
行 7 的 3.5 秒 钟 增长 到 3.9 秒 钟 , 如 果 继 续 查看 CPU 时 间 的 两 个 构成 部 分 (用 户 时 间 和 系统 时 间 ), 
我 们 发 现 没有 上 锁 的 用 户 时 间 有 所 减少 (因为 上 锁 是 由 在 用 户 空 闻 中 执行 的 线程 函数 库 完成 
的 )， 系 统 时 间 却 增长 较 多 ( 因为 当 一 个 连接 到 达 时 所 有 阻塞 在 accept 之 中 的 线程 都 被 唤醒 ， 
引发 内 核 的 惊 群 问题 )。 由 于 把 每 个 连接 派 遗 到 线程 池 中 茶 个 线程 需要 某 种 形式 的 互 斥 ， 因 此 
让 内 核 执 行 派 遗 还 不 如 让 线程 自行 通过 线程 函数 库 执行 派 遗 来 得 快 。 


30.12 TCP 预先 创建 线程 服务 器 程序 ， 主 线程 统一 accept —— 


最 后 一 个 使 用 线程 的 服务 器 程序 设计 范式 是 在 程序 启动 阶段 创建 一 个 线程 池 之 后 只 让 主线 
程 调用 accept 并 把 每 个 客户 连接 传递 给 池 中 某 个 可 用 线程 。 这 一 点 类 似 于 30.9 节 的 描述 符 传递 
版 本 。 

本 设计 范式 的 问题 在 于 主线 程 如 何 把 一 个 已 连接 套 接 字 传递 给 线程 池 中 某 个 可 用 线程 。 这 
里 有 多 个 实现 手段 。 我 们 原本 可 以 如 前 使 用 描述 符 传 递 ， 不 过 既然 所 有 线程 和 所 有 描述 符 都 在 
同一 个 进程 之 内 ， 我 们 没有 必要 把 一 个 描述 符 从 一 个 线程 传递 到 另 一 个 线程 。 接 收 线程 只 需 知 
道 这 个 已 连接 套 接 字 描 述 符 的 值 ， 而 描述 符 传递 实际 传递 的 并 非 这 个 值 ， 而 是 对 这 个 套 接 字 的 
一 个 引用 ， 因 而 将 返回 一 个 不 同 于 原 值 的 描述 符 〔( 该 套 接 字 的 引用 计数 也 被 递增 )。 图 30-30 给 
出 的 pthread08.h 头 文件 定义 了 一 个 与 图 30-27 等 同 的 Thread 结 构 。 























server/pthread08.h 
typedef struct ( 


1 
2 pthread t thread tid; /* thread ID */ 

3 long thread count; /* # connections handled */ 

4 ) Thread; 

5 Thread *tptr; /* array oí Thread structures; calloc'ed */ 


6 #define MAXNCLI 32 
7 int Clifd[MAXNCLI], iget, iput; 
8 pthread mutex t clifd mutex; 
9 pthread cond t clifd cond; 





—— 2 server/pthread08.h 
图 30-30 ”pthread08 .hb 头 文件 


定义 存放 已 连接 套 接 字 描 述 符 的 共享 数组 

6~9 “我们 还 定义 一 个 clifa 数 组 ， 由 主线 程 往 中 存 入 已 接受 的 已 连接 套 接 字 描 述 符 ， 并 由 线 
程 池 中 的 可 用 线程 从 中 取出 一 个 以 服务 相应 的 客户 。iput 是 主线 程 将 往 该 数组 中 存 入 
的 下 一 个 元 素 的 下 标 ，iget 是 线程 池 中 某 个 线程 将 从 该 数组 中 取出 的 下 一 个 元 素 的 下 
标 。 这 个 由 所 有 线程 共享 的 数据 结构 自然 必须 得 到 保护 ， 我 们 使 用 互 斥 锁 和 条 件 变 量 
做 到 这 一 点 。 
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图 30-31 给 出 了 main 函 数 。 


#include “unpthread.h" 
#include "pthread08.h" 


server/serv08.c 





Ne 


static int nthreads; 
pthread mutex t clifd mutex = PTHREAD MUTEX INITIALIZER; 
pthread cond t clifd cond = PTHREAD COND INITIALIZER; 


uo w 


6 int 
7 main(int argc, char **argv) 
8 í 


9 int i, listenfd, connfd; 

10 void sig int(int), thread make (int); 

11 Socklen t addrlen, clilen; 

12 struct sockaddr *cliaddr; 

13 if (argc == 3) 

14 listenfd = Tcp listen(NULL, argv[1], &addrien); 
15 else if (argc -- 4) 

16 listenfd = Tcp listen(argv([1], argv[2], &addrlen); 
17 else 

18 err quit("usage: serv08 [ «host» ] «porté <#threads>"); 
19 cliaddr = Malloc(addrlen); 

20 nthreads = atoi(argv[argc - 1]); 

21 tptr = Calloc(nthreads, sizeof(Thread)); 

22 iget - iput - 0; 

23 /* create all the threads */ 

24 for (i = 0; i < nthreads; i++) 

25 thread make(i); /* only main thread returns */ 
26 Signal(SIGINT, sig int); 

27 for (: 3) X 

28 clilen = addrlen; 

29 connfd - Accept(listenfd, cliaddr, &clilen); 

30 Pthread mutex lock(&clifd mutex); 

31 clifd[iput] = connfd; 

32 if (++iput == MAXNCLI) 

33 iput - 0; 

34 if (iput -- iget) 

35 err quit("iput = iget = %d", iput); 

36 Pthread cond signal(&clifd cond); 

37 Pthread mutex unlock(&clifd mutex); 

38 } 

39 } 





server/serv08.c 


图 30-31 预先 创建 线程 服务 器 程序 的 main 函 数 


创建 线程 池 

23-25 ”使 用 thread_make 创 建 池 中 每 个 线程 。 

等 待 客户 连接 

27~38 ”主线 程 大 部 分 时 间 阻 塞 在 accept 调 用 中 ， 等 待 各 个 客户 连接 的 到 达 。 一 旦 某 个 客户 连 
接 到 达 ， 主 线程 就 把 它 的 已 连接 套 接 字 描述 符 存 入 clifa 数 组 的 下 一 个 元 素 ， 不 过 需 事 
先 获取 保护 该 数组 的 互 斥 锁 。 主 线程 还 检查 iput 下 标 没 有 赶 上 iget 下 标 〈 若 赶 上 则 说 
明 该 数组 不 够 大 )， 并 发 送信 号 到 条 件 变量 信号 ， 然 后 释放 互 斥 锁 ， 以 允许 线程 池 中 某 








个 线程 为 这 个 客户 服务 。 
图 30-32 给 出 了 threada_make 和 thread_main 函 数 。 前 者 与 图 30-29 中 的 版 本 相同 。 
— m server/pthread08.c 

1 #include "unpthread.h" 

2 #include "pthread08.h" 

3 void 

4 thread make(int i) 

5í 

6 void *thread main(void *); 

7 Pthread create(&tptr[il].thread tid, NULL, &thread main, (void *) i); 
8 return; /* main thread returns */ 

9) 

10 void * 

11 thread main(void *arg) 

12-1 

13 int connfd; 

14 void web child(int); 

15 printf ("thread $d starting\n", (int) arg); 

16 for t; 5: ) f 

17 Pthread mutex, lock(&clifd mutex); 

18 while (iget -- iput) 

19 Pthread, cond wait (&clifd cond, &clifd mutex); 

20 connfd - clifd[iget]; /* connected socket to service */ 

21 if (++iget -- MAXNCLI) 
22 iget = 0; 
23 Pthread mutex unlock(&ciifd mutex); 

24 tptr[(int) arg] .thread_count++; 
25 web_child(connfd) ; /* process request */ 

26 Close (connfa) ; 

27 } 
28 } 

server/pthread08.c 


图 30-32 thread_make 和 thread_main 函 数 


等 待 为 之 服务 的 客户 描述 符 
17-26 ”线程 池 中 每 个 线程 都 试图 获取 保护 clifda 数 组 的 互 斥 锁 。 获 得 之 后 就 测试 iput 与 1get， 
若 两 者 相等 则 无 事 可 做 ， 于 是 通过 调用 pthread_conq_wait 睡 眠 在 条 件 变量 上 。 主 线 
程 接受 一 个 连接 后 将 调用 pthreaq_cond_signal 向 条 件 变量 发 送信 号 ， 以 唤醒 睡眠 在 
其 上 的 线程 。 若 测 得 iput 与 iget 不 等 则 从 clifq 数 组 中 取出 下 一 个 元 素 以 获得 一 个 连 
接 ， 然 后 调用 web_chila。 
图 30-1 中 的 测 时 数据 表明 这 个 版 本 的 服务 器 慢 于 上 一 节 中 先 获 取 一 个 互 斥 锁 再 调用 
accept 的 版 本 。 原 因 在 于 本 节 的 例子 同时 需要 互 斥 锁 和 条 件 变 量 ， 而 图 30-29 中 只 需要 互 斥 锁 。 
如 果 检 查 线程 池 中 各 个 线程 所 服务 客户 数 的 分 布 直方 图 ， 我 们 发 现 它 类 似 图 30-2 的 最 后 一 
栏 。 这 一 点 意味 着 当主 线程 调用 pthread_cond_signal1 引 起 线程 函数 库 茜 于 条 件 变 量 执行 唤醒 
工作 时 ， 该 函数 库 在 所 有 可 用 线程 中 轮 循 唤醒 其 中 一 个 。 


ation REAR mr ee s Am 


30. 13 A 8 
我 们 在 本 章 中 讨论 了 9 个 不 同 的 服务 器 程序 设计 范式 , 并 针对 同一 个 web 风格 的 客户 程序 分 
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别 运 行 了 它们 ， 以 比较 它们 花 在 执行 进程 控制 上 的 CPU 时 间 : 
(0) 迭代 服务 器 (无 进程 控制 ， 用 作 测 量 基 准 ); 

(1) 并 发 服务 器 ， 每 个 客户 请 求 fork 一 个 子 进程 

(2) 预先 派生 子 进程 ， 每 个 子 进程 无 保护 地 调用 accept; 
(3) 预先 派生 子 进 程 ， 使 用 文件 上 锁 保 护 accept; 

(4) 预先 派生 子 进程 ， 使 用 线程 互 斥 锁 上 锁 保护 accept; 
(5) 预先 派生 子 进程 ， 父 进程 向 子 进程 传递 套 接 字 描 述 符 ; 
(6) 并 发 服务 器 ， 每 个 客户 请 求 创建 一 个 线程 ; 

(7) 预先 创建 线程 服务 器 ， 使 用 互 斥 锁 上 锁 保 护 accept; 
(8) 预先 创建 线程 服务 器 ， 由 主线 程 调用 accept。 

经 过 比较 ， 我 们 可 以 得 出 以 下 几 点 总 结 性 意见 。 


当 系 统 负载 较 轻 时 ， 每 来 一 个 客户 请 求 现场 派生 一 个 子 进 程 为 之 服务 的 传统 并 发 服务 器 
程序 模型 就 足够 了 。 这 个 模型 甚至 可 以 与 ineta 结 合 使 用 , 也 就 是 inetd 处 理 每 个 连接 的 
接受 。 我 们 的 其 他 意见 是 就 重负 荷 运 行 的 服务 器 而 言 的 ， 璧 如 Web 服 务 器 。 

相 比 传统 的 每 个 客户 fork 一 次 设计 范式 ， 预 先 创 建 一 个 子 进 程 池 或 一 个 线程 池 的 设计 范 
式 能 够 把 进程 控制 CPU 时 间 降 低 10 倍 或 以 上 。 编 写 这 些 范式 的 程序 并 不 复杂 ， 不 过 需 超 
越 本 章 所 给 例子 的 是 : 监视 闲置 子 进程 个 数 ， 随 着 所 服务 客户 数 的 动态 变化 而 增加 或 减 
少 这 个 数目 。 

某 些 实现 允许 多 个 子 进程 或 线程 阻塞 在 同一 个 accept 调 用 中 ， 另 一 些 实现 却 要 求 包 绕 
accept 调 用 安置 某 种 类 型 的 锁 加 以 保护 。 文 件 上 锁 或 Pthread 互 斥 锁 上 锁 都 可 以 使 用 。 
让 所 有 子 进 程 或 线程 自行 调用 accept 通 常 比 让 父 进程 或 主线 程 独自 调用 accept 并 把 描 
述 符 传 递 给 子 进 程 或 线程 来 得 简单 而 快速 。 

由 于 潜在 select 冲 突 的 原因 , 让 所 有 子 进程 或 线程 阻塞 在 同一 个 accept 调 用 中 比 让 它们 
阻塞 在 同一 个 select 调 用 中 更 可 取 。 

使 用 线程 通常 远 快 于 使 用 进程 。 不 过 选择 每 个 客户 一 个 子 进程 还 是 每 个 客户 一 个 线程 取 
决 于 操作 系统 提供 什么 支持 ， 还 可 能 取决 于 为 服务 每 个 客户 需 激活 其 他 什么 程序 (车 有 
其 他 程序 需 激活 的 话 )。 举 例 来 说 ， 如 果 accept 客 户 连接 的 服务 器 调用 fork 和 exec 
〈 警 如 说 inetd 超 级 守护 进程 ), 那么 fork 一 个 单线 程 的 进程 可 能 快 于 fork 一 个 多 线程 
的 进程 。 





在 图 30-13 中 为 什么 父 进程 在 派生 所 有 子 进程 之 后 仍然 保持 监听 套 接 字 打 开 着 而 不 关闭 它 昵 ? 

你 能 够 把 30.9 节 的 服务 器 程序 重新 编写 成 改 用 Unix 域 数据 报 套 接 字 取 代 Unix 域 字 节 流 套 接 字 吗 ? qu 
要 做 哪些 改动 ? 

运行 测试 用 客户 程序 ， 并 按照 你 的 系统 环境 支持 尽 可 能 多 地 运行 各 个 服务 器 程序 ， 对 比 你 的 结果 和 
本 章 所 报告 的 结果 。 


31.1 概述 
在 大 多 数 源 自 SVR4 的 内 核 中 ，X/Open 传 输 接口 (X/Open Transport Interface, XTI) 和 网 络 
协议 通常 就 如 终端 IO 系 统 那样 也 使 用 流 系统 (STREAMS system 或 streams system) 实现 。? 
我 们 将 在 本 章 给 出 流 系统 的 概貌 以 及 应 用 程序 用 于 访问 某 个 流 的 函数 。 我 们 的 目的 只 是 了 
解 网 络 协议 在 流 框架 中 的 实现 机 制 。 另 外 我 们 将 使 用 传输 提供 者 接口 (Transport Provider 
Interface, TPI) 开发 一 个 简单 的 TCP 客 户 程 序 。TPI 是 在 基于 流 的 系统 上 XTI 和 套 接 字 通 常 使 用 


的 传输 层 访问 接口 。 包 括 如 何 使 用 流 系统 编写 内 核 例 程 在 内 的 关于 流 的 更 详尽 信息 参见 [Rago 
1993 ]. 


jf. di Dennis Ritchie [ Ritchie 1984 ] 设计 ， 并 于 1986 年 随 SVR3 首 次 广泛 提供 支持 。POSIX 
规范 将 流 定义 为 一 个 选项 组 (option group )， 意 味 着 POSIX 兼 容 系统 可 以 不 实现 流 ， 然 而 若 实 
现 则 仍然 必须 符合 POSIX 规 范 , 基 本 流 函 数 包 括 getmsg、getpmsg、putmsg、putpmsg. fattach 
以 及 所 有 流 ioct1 命 令 。XTI 往 往 使 用 流 实现 .所 有 源 自 System V 的 系统 都 应 该 提供 流 ， 然 而 
各 个 4.xBSD 版 本 并 不 提供 流 . 

it (STREAMS) 这 个 名 字 尽 管 全 为 大 写字 母 ， 却 不 是 一 个 首 字母 缩写 词 ， 因 此 改 用 全 小 
KFH (streams) 可 能 更 为 合理 , 注意 区 分 我 们 在 本 章 中 讲解 的 流 HO 系 统 ( steams IO system ) 
和 “标准 IO 流 ”( standard IO steams ). 后 者 在 论 及 标准 IO 函数 库 ( 诸如 fopen, fgets. printf 
等 函数 ) MARA, 
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流 在 进程 和 驱动 程序 (driver) 之 间 提 供 全 双 工 的 连接 ， 如 图 31-1 所 示 。 虽 然 我 们 称 底部 那 
个 方 框 为 驱动 程序 ， 它 却 不 必 与 某 个 硬件 设备 相关 联 ， 也 就 是 说 它 可 以 是 一 个 伪 设 备 驱 动 程序 
〈 即 软件 驱动 程序 )。 

流 头 (stream head) 由 一 些 内 核 例 程 构成 , 应 用 进程 针对 流 描述 符 执行 系统 调用 (例如 read.、 
putmsg、ioct1 等 ) 时 这 些 内 核 例 程 将 被 激活 。 

进程 可 以 在 流 头 和 驱动 程序 之 间 动 态 增 加 或 删除 中 间 处 理 模 块 〈processing module)。 这 些 
模块 对 顺 着 一 个 流 上 行 或 下 行 的 消息 施行 某 种 类 型 的 过 滤 ， 如 图 31-2 所 示 。 


O XTI 是 独立 于 套 接 字 API 的 另 一 个 网 络 编程 API。 本 章 在 本 书 第 2 版 中 属于 第 四 部 分 (X/Open 传 输 接口 编程 )， 第 3 
版 仅仅 保留 了 这 一 部 分 如 此 一 章 。 本 书 第 3 版 新 作者 没有 为 孤立 的 本 章 另 起 一 个 部 分 , 而 是 不 恰当 地 把 它 编排 在 
介绍 套 接 字 API 的 第 三 部 分 〈 高 级 套 接 字 编程 ) 中 。 通 常 只 有 在 源 自 SVR4 的 内 核 上 套 接 字 API 才 会 和 X/Open 传 
输 接 口 API 一 样 使 用 流 系统 实现 。 一 一 译 者 注 
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图 31-1 一 个 进程 和 一 个 驱动 程序 之 间 的 某 个 流 图 31-2 ” 压 入 一 个 处 理 模 块 的 某 个 流 


往 一 个 流 中 可 以 推 入 (pushing) 任意 数量 的 模块 。 我 们 说 “ 推 入 ” 意 指 每 个 新 模块 都 被 插 
入 到 流 头 的 紧 下 方 。 
多 路 复 选 器 (multiplexor) 是 一 种 特殊 类 型 的 伪 设备 驱动 程序 ， 它 从 多 个 源 接受 数据 。 举 
例 来 说 ， 可 在 SVR4 上 找到 的 TCP/IP 协 议 族 基于 流 的 某 个 实现 如 图 31-3 所 示 ， 其 中 就 有 多 个 多 路 
复 选 器 。 
e 在 创建 一 个 套 接 字 时 ， 套 接 字 函数 库 把 模块 sockmod 推 入 流 中 。 向 应 用 进程 提供 套 接 字 
API 的 正 是 套 接 字 函 数 库 和 sockmod 流 模块 两 者 的 组 合 。 

e 在 创建 一 个 XTI 端 点 时 ，XTI 函 数 库 把 模块 timod 推 入 流 中 。 向 应 用 进程 提供 XTI API 
的 正 是 XTI 函 数 库 和 timod 流 模块 两 者 的 组 合 。XTI API 的 端点 相当 于 套 接 字 API 的 套 
接 字 。 


这 里 是 我 们 提 到 XTI 的 少数 几 处 之 一 。 本 书 早先 版 本 详细 叙述 了 XTIAPI， 不 过 它 已 不 被 
广泛 使 用 ， 甚 至 POSIX 规 范 也 不 再 涵盖 它 ， 本 书 中 我 们 就 不 讲 术 了 。 图 31-3 展 示 了 XTI 实 现 所 
处 的 典型 位 置 ， 本 章 中 我 们 只 是 简略 提 及 ， 而 不 提供 任何 细节 ， 因 为 几乎 没有 继续 使 用 XTI 
的 理由 了 。 


e 为 了 针对 XTI 端 点 使 用 reaa 和 write 访问 网 络 数据 ， 通 常 必须 把 模块 tizdawr 推 入 流 
中 。 图 31-3 中 中 间 那 个 使 用 TCP 的 进程 就 是 这 么 做 的 。 推 入 该 模块 后 XTI 函 数 库 中 的 函 
数 不 能 继续 使 用 ， 那 个 进程 这 么 做 也 许 已 经 放弃 使 用 XTI， 因 此 我 们 没 给 它 标 .EXTI 函 
数 库 。 

e 所 标的 三 个 服务 接口 定义 顺 着 流 上 行 和 下 行 交 换 的 网 络 消息 的 格式 。 传 输 提 供 者 接口 
(Transport Provider Interface, TPI) [Unix International 1992b] 定义 了 传输 层 提供 者 〈 例 
如 TCP 和 UDP) 向 它 上 方 的 模块 提供 的 接口 。 网 络 提 供 者 接口 (Network Provider Interface, 
NPI) [Unix International 1992a] 定义 了 网 络 层 提供 者 (例如 但) 向 它 上 方 的 模块 提供 的 
接口 。DLPI 就 是 29.3 节 介绍 过 的 数据 链 路 提供 者 接口 [Unix International 1991]。 关 于 TPI 
和 DLPI 可 另行 参考 [Rago 1993]， 其 中 给 有 C 代 码 例子 。 

一 个 流 中 的 每 个 部 件 一 一 流 头 、 所 有 处 理 模 块 和 驱动 程序 一 一 包含 至 少 一 对 队列 queue ): 

一 个 写 队 列 和 一 个 读 队 列 ， 如 图 31-4 所 示 。 
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流 消 息 可 划分 为 高 优先 级 〈high priority)、 优 先 级 带 (priority band) 和 普通 (normal) = 
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853) 类。 优先 级 共有 256 带 ， 在 0~255 之 间 取 值 ， 其 中 普通 消息 位 于 带 0。 流 消息 的 优先 级 用 于 排队 和 
(854) ”流量 控制 。 按 约定 高 优先 级 消息 不 受 流量 控制 影响 。 
图 31-5 给 出 了 一 个 给 定 队列 中 消息 的 出 现 顺 序 。 


经 加 速 数 据 
; y 优先 级 带 优先 级 带 
l l d 
队列 头 队列 尾 
NL rJ Aa cc ———ÓÁ a Cai 
高 优先 级 优先 级 带 普通 


图 31-5 ”一 个 队列 中 的 流 消 息 基于 优先 级 的 排序 


虽然 流 系统 支持 256 个 不 同 的 优先 级 带 ， 网 络 协议 往往 只 用 代表 经 加 速 数据 的 带 1 和 代表 普 
通 数 据 的 带 0。 


TPI 不 认为 TCP 带 外 数据 是 真正 的 经 加 速 数据 。 事实 上 TCP 的 普通 数据 和 带 外 数据 都 使 用 
带 0。 只 有 那些 让 经 加 速 数 据 ( 并 不 是 像 TCP 中 的 紧急 指针 而 已 ) 先 于 普通 数据 发 送 的 协议 才 
使 用 带 1 发 送 经 加 速 数据 。 
注意 “普通 ”一 词 。 在 SVR4 之 前 的 版 本 中 没有 优先 级 带 的 概念 ， 只 有 普通 消息 和 优先 级 
消息 。SVR4 实 现 了 优先 级 带 ， 并 提供 了 getpmsg 和 putpmsg 这 两 个 函数 (我 们 稍 后 讲解 ) ， 
较 早 的 优先 级 消息 于 是 被 重新 命名 为 高 优先 级 , 问题 是 如 何 称呼 优先 级 带 在 1~255 之 间 的 新 增 
设 消息 。 常用 的 术语 定义 [ Rago 1993 ] 称 高 优先 级 以 外 的 消息 为 普通 优先 级 ( normal priority ) 
消息 ,然后 把 这 些 普通 优先 级 消息 细 分 到 各 个 优先 级 带 中 。 普通 消息 一 词 应 该 总 是 指 处 于 带 0 
的 消息 。 
尽管 我 们 讨论 的 只 是 普通 优先 级 消息 和 高 优先 级 消息 两 大 类 ,它们 却 分 别 约 有 12 种 和 18 种 。 
从 应 用 程序 以 及 我 们 马上 讲解 的 germsg 和 putmsg 这 两 个 函数 的 角度 来 看 ， 我 们 仅仅 关注 3 种 不 
同类 型 的 消息 : M DATA. M PROTORlIM PCPROTO (PC 表示 “priority control”， 优 先 级 控制 ， 隐 指 
高 优先 级 消息 )。 图 31-6 说 明了 这 3 种 消息 hele i 
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图 31-6 ”由 write 和 putmsg 产 生 的 流 消 息 类 型 
我 们 将 在 下 一 节 讲解 putmsg 函 数 时 解释 控制 、 数 据 和 标志 。 
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31.3 getmsg 和 Dübmad FS FEED 


沿 着 流 上 行 和 下 行 的 数据 由 消息 构成 ， 而 且 每 个 消息 含有 控制 《control) 或 数据 Cdata) JF 
或 两 者 都 有 。 如 果 在 流 上 使 用 reaa 和 write， 那 么 所 传送 的 仅仅 是 数据 。 为 了 让 进程 能 够 读 写 
数据 和 控制 两 部 分 信息 ， 流 系统 增加 了 如 下 两 个 函数 : 
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#include «stropts.h» 


int getmsg(int fd, struct strbuf *ctlptr, struct strbuf *dataptr, int *flagsp); 


int putmsg(int fd, const struct strbuf *ctlptr, 
const struct strbuf *dataptr, int flags); 


均 返 回 ， 若 成 功 则 为 非 负 值 ， 若 出 错 则 为 -1 
消息 的 控制 和 数据 两 部 分 各 自由 一 个 strbuf 结 构 说 明 。 


struct strbuf { 





int maxlen; /* maximum size of buf */ 
int len; /* actual amount of data in buf */ 
char  *buf; /* data */ 


)i 
注意 strbuf 结 构 和 XTI API 所 用 的 nerbuf 结 构 之 间 的 相似 性 。 它 们 由 3 个 同名 成 员 构 成 ， 
不 过 necbuf 结 构 的 两 个 长 度 成 员 是 无 符号 整数 ， 而 strbuf 结 构 的 两 个 长 度 成 员 是 普通 整数 。 
原因 在 于 有 些 流 函数 使 用 值 为 -1 的 len 或 maxlen 表 示 特 殊 的 含义 ， 
使 用 putmsg 可 以 单纯 发 送 控制 信息 或 数据 , 也 可 以 同时 发 送 两 者 。 为 了 指示 缺失 控制 信息 ， 
可 以 把 ctlptr 参 数 指定 为 空 指针 ,也 可 以 把 cllptr-> Len 设置 为 -1。 同样 手段 设置 dataptr 参 数 用 于 指 
AIR RBG o 
如 果 缺 失控 制 信息 ，putmsg 将 产生 一 个 M_DaTaA 消 息 〈 图 31-6);， 否则 根据 jasgs 参 数 产生 一 
个 M_PROTO 或 M_PCPROTO 消 息 。flags 值 为 0 表示 普通 消息 ， 为 RS_HIPRI 表 示 高 优先 级 消息 。 
getmsg 的 最 后 一 个 参数 是 一 个 值 -结果 参数 。 如 果 调 用 时 指定 的 flagsp 指 向 的 整数 值 为 0， 
那么 返回 的 是 流 中 第 一 个 消息 〈 既 可 能 是 普通 消息 ， 也 可 能 是 高 优先 级 消息 )。 如 果 该 整数 值 为 
RS_HIPRI， 那 就 等 待 一 个 高 优先 级 消息 到 达 流 头 。 无 论 哪 种 情况 ， 存 放 到 fiagsp 指 向 的 整数 中 
的 值 根 据 所 返回 消息 的 类 型 或 为 0， 或 为 RS_HIPRI。 
假设 传递 给 getmsg 的 ctiptr 和 dataptr 参 数 均 为 非 空 指针 ， 如 果 没 有 控制 信息 待 返回 (也 就 是 
即将 返回 一 个 M_DATA 消 息 )，getmsg 就 在 返回 时 把 ctlptr->len 设 置 为 -1 作为 指示 。 类 似 地 如 果 没 
有 数据 待 返回 就 把 dataptr->len 设 置 为 -1。 
putmsg 在 成 功 时 返回 9， 在 出 错时 返回 -1。 然 而 getmsg 仅 在 整个 消息 完整 返回 给 调用 者 时 
才 返 回 9。 如 果 控 制 缓冲 区 不 足以 容纳 完整 的 控制 信息 ， 那 就 返回 非 负 的 MORECTL， 类 似 地 如 果 
数据 缓冲 区 太 小 , 那 就 返回 MOREDATA。 如 果 两 个 缓冲 区 都 太 小 , 那 就 返回 这 两 个 标志 的 逻辑 或 。 


31.4 getpmsg 和 putpmsg 函数 





当 对 于 不 同 优先 级 带 的 支持 随 SVR4 被 增加 到 流 系 统 时 ， 以 下 两 个 getmsg 和 putmsg 的 变 体 
函数 也 被 同时 引入 。 


#include <stropts.h> 





int getpmsg(int fd, struct strbuf *ctlptr, 
struct strbuf *dataptr, int *bandp, int *flagsp): 


int putpmsg(int fa, const struct strbuf *ctlptr, 
const struct strbuf *dataptr, int band, int flags): 


均 返 回 : 若 成 功 则 为 非 负 值 ， 若 出 错 则 为 -1 


putpmsg 的 band 参 数 必须 在 0~255 之 间 ( 含 )。 如 果 flags 参 数 为 MSG_BAND， 那 就 产生 一 个 所 
指定 优先 级 带 的 消息 。 把 flags 设 置 为 MSG_BAND 并 且 把 band 设 置 设 为 0 等 效 于 调用 putmsg。 如 果 
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Jlags 为 MSG_HIPRI，band 就 必须 为 0%， 所 产生 的 是 一 个 高 优先 级 消息 。( 注 意 ，putmsg 使 用 不 同 
名 字 的 Rs_HTPRI 标 志 。) 

getpmsg 的 bandp 和 flagsp 参 数 是 值 -结果 参数 。flagsp 指 向 的 整数 可 以 取 值 MSG_HIPRI (以 读 
入 一 个 高 优先 消息 )、MSG_BAND〔 以 读 入 一 个 优先 级 至 少 为 bandp 指 向 的 整数 值 的 消息 ) 或 
MSG_ANY (以 读 入 任 一 消息 )。 函数 返回 时 , bandp 指 向 的 整数 含有 所 读 入 消息 的 优先 级 带 , flagsp 
指向 的 整数 含有 MSG_HIPRI (如果 所 读 入 的 是 一 个 高 优先 级 消息 ) 或 MsG_BAND (如 果 所 读 入 的 
是 其 他 类 型 消息 )。 


te M ni mm adi PITT PUR DA C siint ALTON HE TASES NEONO, S PONTE TIT tN EEEE TD NP CE OG NOR TN ERR 


31.5 ioctl BA l | 
在 流 系统 中 我 们 将 再 次 使 用 在 第 17 章 中 讲解 过 的 ijoct1 函 数 。 


#include <stropts.h> 








int ioctl(int fd, int request, ... /* void *arg */ ); 


返回 : 车 成 功 则 为 0， 若 出 错 则 为 -1 





与 17.2 节 给 出 的 函数 原型 相 比 ， 唯 一 的 变化 是 处 理 流 时 所 必须 包含 的 头 文件 是 不 一 样 的 。 
大 约 有 30 个 ioct1 请 求 影响 流 头 ， 每 个 请 求 均 以 I_ 打 头 ， 它 们 的 具体 说 明 通 常 在 streamio 
手册 页 面 中 给 出 。 


在 图 31-3 中 , 我 们 把 TPI 表 示 为 传输 层 向 它 上 方 的 模块 提供 的 服务 接口 。 在 流 环境 中 套 接 字 
和 XTI 都 使 用 TPI。 在 图 31-3 中 ， 应 用 进程 跟 TCP 和 UDP 交换 TPI 消 息 的 是 套 接 字 函 数 库 和 
sockmod 的 组 合 ， 或 者 是 XTI 函 数 库 和 timod 的 组 合 。 

TPI 是 一 个 基于 消息 的 接口 。 它 定义 了 在 应 用 进程 (例如 XTI 函 数 库 或 套 接 字 函 数 库 ) 和 传 
输 层 之 间 沿 着 流 上 行 和 下 行 交换 的 消息 ， 包 括 消 息 的 格式 和 每 个 消息 执行 的 操作 。 在 许多 实例 
中 ， 应 用 进程 向 提供 者 发 出 一 个 请 求 ( 辟 如 说 “捆绑 这 个 本 地 地 址 ”)， 提 供 者 则 发 回 一 个 响应 
《成 功 ”或 “出 错 ”)。 一 些 事件 在 提供 者 异步 地 发 生 ( 对 某 个 服务 器 的 连接 请 求 的 到 达 )， 它 们 
导致 沿 着 流向 上 发 送 的 消息 或 信号 。 

我 们 可 以 绕 过 XTI 和 套 接 字 直 接 使 用 TPI。 我 们 将 在 本 节 改 用 TPI 取 代 套 接 字 重 新 编写 我 们 
的 简单 时 间 获 取 客户 程序 (图 1-5)。 拿 编程 语言 进行 类 比 ， 使 用 套 接 字 或 XTI 好 比 使 用 诸如 C 或 
Pascal 等 高 级 语言 编程 ， 而 直接 使 用 TPI 好 比 使 用 汇编 语言 编程 。 我 们 并 不 提倡 在 现实 应 用 程序 
中 直接 使 用 TPI。 不 过 查看 TPI 如 何 工作 并 开发 本 例子 有 助 于 我 们 更 好 地 理解 在 流 环境 中 套 接 字 
函数 库 和 XTI 函 数 库 的 工作 原理 。 

图 31-7 是 我 们 的 tpi_gdaytime.h 头 文件 。 

1 #include "unpxti.h" 


2 #include «sys/stream.h» 
3 #include «sys/tihdr.h» 


on REP NSA ENN NAAN ear SIMI: M n a a on 








streams/tpi daytime.h 


4 void tpi bind(int, const void *, size t); 

5 void tpi_connect (int, const void *, size t); 
6 ssize t tpi read(int, void *, size t); 

7 void tpi close(int); 





streams/tpi daytime.h 
图 31-7 ”我 们 的 tpi_aaytime.h 头 文件 
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我 们 需要 与 <sys/tihar.h> 一 道 包含 一 个 额外 的 流 头 文件 <sys/stream.h>， 其 中 前 者 给 
出 了 所 有 TPI 消 息 的 结构 定义 。 
图 31-8 是 我 们 的 时 间 获 取 客 户 程序 的 main 函 数 。 


streams/tpi daytime.c 
1 #include "tpi daytime.h" 
2 int 
3 main(int argc, char **argv) 
4í( 
5 int fd, n; 
6 char recvline(MAXLINE + 1]; 
7 struct sockaddr in myaddr, servaddr; 
8 if (argc !- 2) 
9 err quit("usage: tpi, daytime «IPaddress»"); 
10 fd - Open(XTI TCP, O RDWR, 0); 
11 /*bind any local address */ 
12 bzero(&myaddr, sizeof (myaddr)); 
13 myaddr.sin_family = AF_INET; 
14 myaddr.sin_addr.s_addr = htonl(INADDR ANY); 
i5 myaddr.sin_port = htons(0); 
16 tpi bind(fd, &myaddr, sizeof(struct sockaddr_in)); 
17 /*fill in server's address */ 
18 bzero(&servaddr, sizeof(servaddr)); 
19 servaddr.sin family - AF INET; 
20 servaddr.sin port - htons(13); /* daytime server */ 
21 Inet pton(AF INET, argv(1], &servaddr.sin addr); 
22 tpi connect(fd, &servaddr, sizeof(struct sockaddr in)); 
23 for (: : ) (0 
24 if ( (n = tpi read(fd, recvline, MAXLINE)) <= 0) ( 
25 if (n == 0) 
26 break; 
27 else 
28 err sys("tpi read error"); 
29 } 
30 recvline(n] = 0; /* null terminate */ 
31 fputs(recvline, stdout); 
32 } 
33 tpi_close (fd); 
34 exit (0); 
35 ) 





streams/tpi daytime.c 
图 31-8 TPI 时 间 获 取 客 户 程序 的 main 函 数 


打开 传输 提供 者 ， 捆 绑 本 地 地 址 

10-16 ”打开 与 传输 提供 者 TCP 对 应 的 设备 (通常 为 /aev/tcp)。 以 INADDR_ANY 和 端口 0 填写 一 
个 网 际 网 套 接 字 地 址 结构 ， 告 知 TCP 捆 绑 任 意 一 个 本 地 地 址 到 本 地 端点 。 捆 绑 工 作 通 
过 调用 我 们 稍 后 给 出 的 cpi_bind 函 数 完成 。 

填写 服务 器 地 址 ， 建 立 连接 

17-22 ”以 服务 器 主机 IP 地 址 ( 取 自命 令 行 ) 和 端口 13 填 写 另 一 个 网 际 网 套 接 字 地 址 结构 ， 然 
后 调用 我 们 的 tpi_connect 函 数 建立 连接 。 


[858] 
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从 服务 器 读 入 数据 ， 复 制 至 标准 输出 
23-33 ”与 其 他 时 间 获 取 客 户 程序 一 样 ， 我 们 简单 地 把 数据 从 连接 复制 到 标准 输出 循环 ， 并 在 
接收 到 来 自 服务 器 的 EOF 〈 即 FIN 分 节 ) 时 跳出 循环 然后 调用 我 们 的 tpi_close 函 数 关 

图 31-9 是 我 们 的 tpi_bind 函 数 。 


m — — streams/tpi_bind.c 
1 #include "tpi daytime.h" 
2 void 
3 tpi bind(int fd, const void *addr, size t addrien) 
4{ 
5 struct { 
6 struct T_bind_req msg_hdr; 
7 char addr [128] ; 
8 ) bind req; 
9 struct { 
10 struct T bind ack msg hár; 
11 char addr[128]; 
12 ) bind ack; 
13 struct strbuf ctlbuf; 
14 struct T error ack ‘*error_ack; 
15 int flags; 
16 bind req.msg hdr.PRIM type - T BIND REQ; 
17 bind req.msg hdr.ADDR length - adárlen; 
18 bind req.msg hdr.ADDR offset = sizeof(struct T bind req); 
19 bind req.msg hdr.CONIND number - 0; 
20 memcpy (bind req.addr, addr, addrlen);  /* sockaddr in() */ 
21 ctlbuf.len = sizeof(struct T bind req) + adárien; 
22 ctlbuf.buf = (char *) &bind req; 
23 Putmsg(fd, &ctlbuf, NULL, 0); 
24 ctlbuf.maxlen - sizeof(bind ack); 
25 ctlbuf.len - 0; 
26 Ctlbuf.buf = (char *) &bind_ack; 
27 flags - RS HIPRI; 
28 Getmsg(fd, &ctlbuf, NULL, &flags); 
29 if (ctlbuf.len « (int) sizeof(long)) 
30 err quit("bad length from getmsg"); 
31 switch (bind ack.msg hdr.PRIM type) ( 
32 case T, BIND ACK: 
33 return; 
34 case T ERROR, ACK: 
35 if (ctlbuf.len « (int) sizeof(struct T error ack)) 
36 err quit("bad length for T ERROR ACK"); 
37 error ack = (struct T error ack *) &bind_ack.msg_hdr; 
38 err quit("T ERROR ACK from bind (%d, Sd)", 
39 error ack-»TLI error, error ack-»UNIX error); 
40 default: 
41 err quit("unexpected message type: $d", bind ack.msg hdr.PRIM type); 
42 ) 
43 ) 


图 31-9 tpi_binad 函 数 : 捆绑 一 个 本 地 地 址 到 一 个 端点 





streams/tpi bind.c 


31.6 TPI: 传输 提供 者 接口 683 


AST bind regt 
16-20 ”<sys/tihdr.h> 头 文件 如 下 定义 T_bind_req 结 构 。 


struct T bind req ( 


t scalar t PRIM type; /* T BIND REQ */ 

t scalar t ADDR iength; /* address length */ 

t.scalar t ADDR, offset; /* address offset */ 

t uscalar t CONIND number; /* connect indications requested */ 


/* followed by the protocol address for bind */ 

hs 

所 有 TPI 请 求 都 定义 成 以 一 个 长 整数 类 型 字段 开头 的 某 个 结构 。 我 们 把 bina_rea 结 构 定 
义 为 以 Tr_bina_rea 结 构 打 头 ， 后 跟 用 于 存放 待 捆绑 本 地 地 址 的 一 个 缓冲 区 。TPI 对 该 
缓冲 区 的 内 容 未 做 任何 规定 ， 它 由 具体 的 提供 者 定义 。TCP 提 供 者 期 待 该 缓冲 区 含有 
一 个 sockaddr_in 结 构 。 
填写 T_bind_req 结 构 ， 把 ADDR_length 成 员 设置 成 地 址 大 小 (对 于 网 际 网 套 接 字 地 址 
结构 为 16 字 节 )， 把 ADDR_offset 设 置 成 地 址 的 字 节 偏 移 量 〈 紧 跟 在 T_bind_reg 结 构 
之 后 )。 这 个 位 置 难以 保证 是 为 即将 存放 在 那儿 的 sockadar_in 结 构 适当 地 对 齐 的 ， 
此 我 们 调用 memcpy 把 调用 者 给 定 的 地 址 结构 复制 到 bina_req 结 构 中 (而 不 是 使 用 结构 
赋值 运算 等 方式 )。 既 然 我 们 是 客户 而 不 是 服务 器 ， 于 是 把 coNIND_number 设 置 为 0。 

调用 putmsg 

21~23 TPI 要 求 把 我 们 刚 构 造 的 结构 作为 一 个 M_PROTO 消 息 传 递 给 提供 者 。 于 是 我 们 把 这 个 
bind_reqa 结 构 指定 为 控制 信息 调用 putmsg， 同 时 指定 缺失 数据 且 标 志 为 0。 

调用 getmsg 读 入 高 优先 级 消息 

24-30 ”对 于 T_BIND_REQ 请 求 的 响应 或 者 是 T_BIND_ACK 消 息 , 或 者 是 T_ERROR_ACK 消 息 。 这 些 
确认 消息 是 作为 高 优先 级 消息 (M_PCPROTO) 发 送 的 ， 我 们 于 是 指定 RS_HIPRI 标 志 调 
用 getmsg 读 入 它们 。 既 然 该 应 答 是 一 个 高 优先 级 消息 ， 它 将 绕 过 流 中 任意 普通 优先 级 
消息 。 
这 两 个 可 能 的 应 答 消 息 的 结构 定义 如 下 。 


struct T bind ack ( 


t scalar t PRIM type; /* T BIND ACK */ 
t scalar t ADDR, length; /* address length */ 
t scalar t ADDR. offset; /* address offset */ 


t uscalar t CONIND number; /* connect ind to be queued */ 
/*followed by the bound address */ 
) 


struct T error ack ( 


t scalar t PRIM type; /* T ERROR ACK */ 

t scalar t ERROR prim; /* primitive in error */ 
t scalar t TLI error; /* TLI error code */ 

t scalar t UNIX error; /* UNIX error code */ 


) 

这 两 个 消息 都 以 一 个 同样 的 类 型 成 员 打 头 ， 因 此 我 们 可 以 假设 它 是 一 个 T_BIND_AcK 消 
息 读 入 应 答 ， 查 看 类 型 值 之 后 再 相应 地 处 理 该 消息 。 我 们 不 期 望 来 自 提供 者 的 任何 数 
据 ， 因 此 把 getmsg 的 第 三 个 参数 指定 为 空 指 针 。 


在 验证 所 返回 的 控制 信息 量 至 少 是 一 个 长 整数 的 大 小 时 ， 我 们 必须 小 心地 把 sizeof 的 值 
类 型 强制 转换 成 一 个 整数 。sizeof 运 算 符 返回 的 是 一 个 无 符号 整 型 ， 而 getmsg 返 回 的 strbuf 
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结构 len 成 员 可 能 是 -1。 然 而 由 于 小 于 比较 运算 符 的 左边 是 一 个 有 符号 值 ， 右 边 是 一 个 无 符 
号 值 ，C 编 译 器 于 是 把 有 符号 值 类 型 转换 成 无 符号 值 。 在 补 码 (twos-complement ) 体系 结构 
上 ，-1 作 为 无 符号 值 看 待 非 常 之 大 ， 导 致 -1 大 于 4 (假设 一 个 长 整数 占据 4 个 字 节 ) . 

处 理应 答 

31-33 “如果 应 答 是 r_BIND_AcK， 那 么 捆绑 成 功 ， 我 们 于 是 返回 。 绑 定 在 端点 上 的 实际 地 址 由 

bind, ackZ& tj Hadar FX 5 3s [n] . 
34-39 ”如 果 应 答 是 T_ERROR_ACK， 屠 就 验证 所 收 到 的 是 完整 的 消息 ， 然 后 显示 消息 结构 中 的 3 


个 返回 值 。 在 我 们 这 个 简单 的 程序 中 ， 如 果 发 生 错 误 就 直接 终止 ， 而 不 再 返回 到 调用 者 。 
通过 把 我 们 的 main 函 数 改 为 捆绑 某 个 非 0 端口 ， 我 们 就 可 以 看 到 这 种 出 自 捆绑 的 错误 。 
举例 来 说 , 如 果 尝 试 捆绑 端口 1( 这 需要 超级 用 户 权限 , 因为 它 是 一 个 1024 以 内 的 端口 )， 
我 们 将 得 到 如 下 输出 : 


solaris $ tpi daytime 127.0.0.1 
T ERROR ACK from bind (3, 0) 


该 系统 上 错误 EaccEs 的 值 为 3。 如 果 我 们 尝试 捆绑 一 个 1023 以 上 却 正 被 另 一 个 TCP 端 点 
使 用 的 端口 ， 我 们 将 得 到 如 下 输出 : 


solaris % tpi, daytime 127.0.0.1 
T ERROR ACK from bind (23, 0) 


该 系统 上 错误 EADDRBUSY 的 值 为 23。? 


下 一 个 函数 是 图 31-10 中 的 tpi_connect， 它 建立 与 服务 器 的 连接 。 


1 #include "tpi_daytime.h" 


streams/tpi_connect.c 


2 void 
3 tpi connect(int fd, const void *addr, size t addrlen) 


struct ( 
struct T conn req msg_hdr; 
char addr[128]; 
) conn req; 
struct ( 
struct T conn, con msg hdr; 
char addr (128); 
) conn con; 
struct strbuf ctlbuf; 
union T primitives rcvbuf; 
struct T error ack ‘*error_ack; 
struct T discon, ind *discon ind; 
int flags; 


conn req.msg hdr.PRIM type = T CONN REO; 

conn req.msg hdr.DEST length - addrlen; 

conn req.msg hár.DEST offset = sizeof(struct T conn req); 
conn req.msg hdr.OPT length = 0; 








图 31-10 tpi_connect MR: 建立 与 服务 器 的 连接 


O 这 个 错误 是 TPI 为 支持 XTI 而 引入 的 。 支 持 TLI 的 较 早 版 本 TPI 在 请 求 捆 绑 一 个 已 使 用 的 端口 时 将 另行 捆绑 一 个 未 
使 用 的 端口 。 这 意味 着 捆绑 众所周知 端口 的 服务 器 将 不 得 不 比较 返回 的 地 址 《出 自由 第 三 个 参数 为 非 空 指针 的 
t_pbind 调 用 返回 的 T_binG_ack 消 息 ) 和 请 求 的 地 址 ， 如 果 不 一 致 就 放弃 。 一 一 译 者 注 
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22 conn, req.msg hàr.OPT offset = 0; 
23 memcpy (conn req.addr, addr, addrlen); /* sockaddr_in{} */ 
24 ctlbuf.len = sizeof (struct T conn reg) + addrlen; 
25 ctlbuf.buf - (char *) &conn req; 
26 Putmsg(fd, &ctlbuf, NULL, 0); 
27 ctlbuf.maxlen = sizeof (union T primitives); 
28 ctlbuf.len = 0; 
29 ctlbuf.buf = (char *) &rcvbuf; 
30 flags - RS HIPRI; 
31 Getmsg(fd, &ctlbuf, NULL, &flags); 
32 if (ctlbuf.len < (int) sizeof(long)) 
33 err quit("tpi connect: bad length from getmsg"); 
34 switch(rcvbuf.type) ( 
35 case T OK ACK: 
36 break; 
3] case T ERROR ACK: 
38 if (ctlbuf.len < (int) sizeof(struct T. error ack)) 
39 err quit("tpi connect: bad length for T ERROR ACK"); 
40 error ack - (struct T error ack *) &rcvbuf; 
41 err quit("tpi connect: T ERROR ACK from conn ($d, $a)", 
42 error, ack-»TLI error, error ack-»UNIX error); 
43 default: 
44 err quit("tpi connect: unexpected message type: $d", rcvbuf .typel; 
45 ) 
46 ctlbuf.maxlen - sizeof (conn con); 
47 ctlbuf.len = 0; 
48 ctlbuf.buf - (char *) &conn con; 
49 flags = 0; 
50 Getmsg(fd, &ctlbuf, NULL, &flags); 
51 if (ctlbuf.len < (int) sizeof (long) ) 
52 err quit("tpi connect2: bad length from getmsg"); 
53 switch(conn con.msg hdr.PRIM type) { 
54 case T CONN CON: 
55 break; 
56 case T DISCON, IND: 
57 if (ctlbuf.len « (int) sizeof(struct T discon ind)) 
58 err quit("tpi connect2: bad length for T DISCON IND"); 
59 discon ind = (struct T discon ind *) &conn con.msg hdàr; 
60 err quit("tpi connect2: T DISCON IND from conn (%d)", 
61 discon ind-»DISCON reason); 
62 default: 
63 err quit("tpi, connect2: unexpected message type: %d", 
64 conn con.msg. hdr.PRIM type); 
65 ) 
66 ) 
streams/tpi connect.c 
图 31-10 — (4D 
填写 请 求 结构 并 发 送 给 提供 者 


18-26 ”TPI 定 义 了 一 个 T_conn_req 结 构 ， 用 于 存放 连接 的 协议 地 址 和 选项 : 


686 | $31* 流 


struct T conn req ( 


t scalar t PRIM type; /* T_CONN_REO */ 

t scalar t DEST. length; /* destination address length */ 
t scalar t DEST offset; /* destination address offset */ 
t scalar t OPT. length; /* options length */ 

t scalar t OPT offset; /* options offset */ 


/* followed by the protocol address and options for connection */ 
}; 


就 像 tpi_bina 函 数 一 样 ， 我 们 自行 定义 一 个 名 为 conn_rea 的 结构 ， 它 包含 一 个 
T_conn_req 结 构 以 及 用 于 存放 协议 地 址 的 空间 。 填写 一 个 conn_rea 结 构 , 把 处 理 选项 
的 那 两 个 成 员 设置 为 0。 单 纯 指 定 控制 信息 调用 putmsg， 同 时 把 标志 指定 为 0， 以 顺 着 
流下 行 发 送 一 个 M_PROTO 消 息 。 


读 入 响应 
27-45 ”调用 getmsg 期 待 接收 T_ok_ACK 消 息 ( 如 果 连 接 建立 已 经 启动 ) 或 者 T_ERROR_OK 消 息 
(早先 已 经 给 出 )。 
struct T ok ack { 
t scalar t PRIM type; /* T OK ACK */ 
t scalar t CORRECT. prim; /* correct primitive */ 


}; 

如 果 发 生 错 误 就 终止 。 既 然 不 知道 将 收取 什么 类 型 的 消息 ， 我 们 于 是 定义 一 个 名 为 
T_primitives 的 由 所 有 可 能 的 请 求 和 应 答 组 成 的 联合 ， 并 分 配 一 个 这 个 类 型 的 联合 ， 
在 调用 getmsg 时 用 作 控 制 信息 的 输入 缓冲 区 。 

等 待 连接 建立 完成 

46-65 ”表示 成 功 的 T_Ok_ACK 消 息 只 是 告诉 我 们 连接 建立 已 经 启动 .现在 必须 等 待 T_cCONN_CON 
消息 以 获悉 对 端 已 经 确认 该 连接 请 求 。 


struct T conn, con { 


t scalar t PRIM, type; /* TT CONN CON */ 

t scalar t RES length; /* responding address length */ 
t scalar t RES offset; /* responding address offset */ 
t scalar t OPT iength; /* option length */ 

t scalar t OPT offset; /* option offset */ 


/* followed by peer's protocol address and options */ 
}; 


再 次 调用 getmsg， 不 过 所 期 待 的 消息 是 作为 一 个 M_PROTO 消 息 而 不 是 一 个 M_PCPROTO 
消息 发 送 的 ， 于 是 把 标志 设置 为 0。 如 果 接 收 到 T_coNN_coN 消 息 ， 那 么 连接 建立 完毕 ， 
函数 接着 返回 ， 但 是 如 果 连 接 未 能 建立 (对 端 进程 不 在 运行 、 发 生 超时 等 原因 )， 那 就 
会 收 到 一 个 T_DISCON_IND 消 息 : 


struct T discon ind { 


t scalar t PRIM type; /* T DISCON IND */ 
t scalar t DISCON reason; /* disconnect reason */ 
t scalar t SEQ number; /* sequence number */ 


) 
我 们 可 以 设法 查看 由 提供 者 返回 的 各 种 错误 。 首 先 指定 一 个 不 在 运行 标准 daytime 服 务 
器 的 主机 的 IP 地 址 : 


solaris % tpi daytime 192.168.1.10 
tpi connect2: T DISCON IND from conn (146) 


错误 146 表 示 ECONNREFUSED。 接 着 指定 一 个 未 接 入 因特网 的 下地 址 ， 
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solaris $ tpi daytime 192.3.4.5 
tpi connect2: T DISCON IND from conn (145) 


错误 145 表 示 ETIMEDOUT。 再 次 对 该 IP 地 址 运行 本 程序 ， 我 们 得 到 另 一 个 错误 : 
solaris $ tpi daytime 192.3.4.5 
tpi connect2: T DISCON IND from conn (148) 
这 次 错误 148 表 示 EHosTUNREACH。 最 后 两 个 结果 的 区 别 在 于 ， 第 一 次 没有 导致 ICMP 主 
机 不 可 达 错 误 的 返 送 ， 第 二 次 则 导致 返 送 这 个 错误 。 
图 31-11 给 出 下 一 个 函数 tpi_read， 它 从 一 个 流 中 读 入 数据 。 


i #include "tpi, daytime.h" 


streams/tpi read.c 





2 ssize t 

3 tpi read(int fd, void *buf, size t len) 

4{ 

5 struct strbuf ctlbuf; 

6 struct strbuf datbuf; 

7 union T primitives rcvbuf; 

8 int flags; 

9 ctlbuf.maxlen - sizeof(union T primitives); 
10 ctlbuf.buf - (char *) &rcvbuf; 

11 datbuf.maxlen = len; 

12 datbuf.buf = buf; 

13 datbuf.len - 0; 

14 flags - 0; 

15 Getmsg(fd, &ctlbuf, &datbuf, &flags); 

1 if (ctlbuf.len »- (int) sizeof(long)) ( 

17 if (rcvbuf.type -- T DATA IND) 

18 return(datbuf.len); 

19 else if (rcvbuf.type == T ORDREL. IND) 
20 return(0); 

21 else 

22 err quit("tpi read: unexpected type $d", rcvbuf.type); 
23 ) else if (ctlbuf.len -- -1) 

24 return (datbuf.len); 

25 else 

26 err quit("tpi read: bad length from getmsg"); 








streams/tpi read.c 


图 31-11 tpi_read 函 数 ， 从 流 中 读 入 数据 


读 控制 信息 和 数据 ， 处 理应 答 
9-26 ”这 次 我 们 调用 getmsg 同 时 读 入 控制 信息 和 数据 。 用 于 返回 数据 的 strbuf 结 构 指向 调用 
者 给 定 的 缓冲 区 。 在 读 入 时 可 能 会 在 流 上 出 现 4 种 不 同情 形 。 
p.a ED? bs BARA SIS co, DR EHE UA CULA BUS DICH Ra e CHR hh, 
© getnac HABI: SRE, REEMA AE STE PEDER  —- 
SM DATATI NO R A es B ROL REENE — "T. dac&á- indie - 








struct T data ind. ( 
t-scalar t PRIM. type: F*-TZDATA.INB.f/ 7" 
t_scalar-t MORE _flag; /* more data. */ 


)a 7 =: x 


N 
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如 果 返 回 这 样 的 消息 ,我 们 就 忽略 MORE_flag 成 员 (对 于 像 TCP 这 样 的 字 节 流 协议 该 成 
员 不 可 能 被 设置 )， 并 返回 由 getmsg 复 制 到 调用 者 给 定 的 缓冲 区 中 的 数据 的 大 小 。 
e 到 达 一 个 T_ORDREL_IND 消 息 ， 表 示 TCP 提 供 者 收取 的 所 有 分 节 均 已 被 消费 ， 下 一 个 


分 节 是 FIN。 
struct T ordrel ind { 
t scalar t PRIM type; /* T ORDREL IND */ 


}; 
这 就 是 顺序 释放 。 我 们 就 返回 9， 以 向 调用 者 指示 已 在 连接 上 过 到 EOF。 
e 到 达 一 个 T_DISCON_IND 消 息 ， 表 示 收 到 一 个 断 连 请 求 。 对 于 TCP 提 供 者 ， 本 情形 发 
生 于 在 一 个 已 存在 连接 上 收 到 一 个 RST 之 后 。 在 我 们 这 个 简单 的 例子 中 ， 我 们 不 处 
理 这 种 情形 。 
图 31-12 是 我 们 的 最 后 一 个 函数 tpi_close。 


streams/tpi close.c 





1 #include "tpi Gaytime.h" 

2 void 

3 tpi close(int fd) 

4 í 

5 struct T ordrel, reg ordrel_req; 

6 struct strbuf ctlbuf; 

7 ordrel req.PRIM, type = T ORDREL, REQ; 
8 ctlbuf.len - sizeof(struct T ordrel req); 
9 ctlbuf.buf - (char *) &ordrel req; 
10 Putmsg(fd, &ctlbuf, NULL, 0); 

11 Close(fd); 

12 ) 


streams/tpi close.c 


图 31-12 tpi_close 函 数 : 向 对 端 发 送 一 个 顺序 释放 


向 对 端 发 送 顺序 释放 
7-10 ”构造 一 个 T_ordrel_req 结 构 并 调用 putmsg 将 其 作为 一 个 M_PROTO 消 息 发 送出 去 。 本 函 

数 相应 于 xTI 的 t_sndrel 函 数 。 

struct T ordrel req ( 

long PRIM type; /* T ORDREL REQ */ 

}; 
本 例子 给 我 们 展示 了 TPI 的 风味 。 应 用 进程 沿 着 流下 行 向 提供 者 发 送 消 息 〈 请 求 )， 提 
供 者 则 沿 着 流 上 行 发送 回 消息 (应答)。 一 些 消息 交换 是 比较 简单 的 请 求 -应 答 情形 ( 例 
如 捆绑 一 个 本 地 地 址 )， 另 一 些 消息 交换 则 需要 耗费 一 段 时 间 ( 例 如 建立 一 个 连接 )， 
并 允许 我 们 在 等 待 应答 期 间 做 些 事情 而 不 是 空 等 。 我 们 选择 编写 使 用 TPI 的 TCP 客 户 程 
序 而 不 是 服务 器 程序 是 为 了 简单 ,编写 使 用 TPI 的 服务 器 程序 并 合理 地 处 理 连接 则 要 困 
从 XTI 到 TPI 的 函数 映射 比较 接近 ， 而 从 套 接 字 到 TPI 的 映射 却 不 那么 接近 。 尽 管 如 此 ， 
无 论 是 XTI 函 数 库 还 是 套 接 字 函 数 库 都 处 理 了 TPI 所 需 的 大 量 细 节 ， 从 而 简化 了 应 用 程 
序 的 编写 。 
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我 们 可 以 比较 一 下 在 本 章 中 看 到 的 使 用 TPI 完 成 网 络 操作 与 在 套 接 字 实现 于 内 核 中 的 系 
统 上 完成 同样 操作 所 需 的 系统 调用 个 数 。TPI 情 形 捆绑 一 个 本 地 地 址 需要 2 个 系统 调用 ， 内 核 
套 接 字 情 形 只 需要 1 个 (TCPv2 第 454 页 )。TPI 情 形 在 一 个 阻塞 式 描 述 符 上 建立 一 个 连接 需要 3 
个 系统 调用 ， 内 核 套 接 字 情形 只 需要 1 个 (TCPv2 第 466 页 )。 
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XTI 一 般 使 用 流 来 实现 。 为 访问 流 子 系统 而 提供 的 4 个 新 函数 是 getmsg、getpmsg、putmsg 
和 putpmsg， 已 有 的 ioct1 函 数 也 被 流 子 系统 频繁 使 用 。 

TPI 是 从 上 层 进 入 传输 层 的 SVR4 流 接口 。XTI 和 套 接 字 均 使 用 TPI， 如 图 31-3 所 示 。 作 为 展 
示 TPI 所 用 的 基于 消息 接口 的 一 个 例子 , 我 们 直接 使 用 TPI 开 发 了 时 间 获 取 客 户 程序 的 一 个 版 本 。 


习题 


31.1 在 图 31-12 中 ， 我 们 调用 putmsg 沿 着 流下 行 发 送 一 个 顺序 释放 请 求 ， 然 后 立即 关闭 该 流 。 如 果 在 关 
闭 该 流 期 间 我 们 的 顺序 释放 请 求 被 流 子 系统 弄 丢 ， 将 会 发 生 什 么 ? 
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IPv4, IPv6, ICMPv4 和 ICMPv6 


A.1 概述 


本 附录 给 出 IPv4、IPvV6、ICMPv4 及 ICMPv6 的 概貌 。 这 些 材 料 所 提供 的 额外 背景 知识 对 于 
理解 第 2 章 中 有 关 TCP 和 UDP 的 讨论 会 有 所 帮助 。 高 级 套 接 字 编 程 部 分 有 若干 章 也 使 用 了 人 和 
ICMP 的 某 些 特性 ， 例 如 下 选项 (第 27 章 ) 以 及 ping 和 traceroute 程 序 (928%). 


A.2 IPv4 首部 


IP 层 提供 无 连接 不 可 靠 的 数据 报 递送 服务 CRFC 791 [Postel 1981a])。 它 会 尽 最 大 努力 把 IP 
数据 报 递送 到 指定 的 目的 地 ， 然 而 并 不 保证 它们 一 定 到 达 ， 也 不 保证 它们 的 到 达 顺 序 与 发 送 顺 
序 一 致 ， 还 不 保证 每 个 下 数据 报 只 到 达 一 次 。 任 何 期 望 的 可 靠 性 〔( 即 无 差错 按 顺 序 不 重复 地 递 
送 用 户 数据 ) 必须 由 上 层 提供 支持 。 对 于 TCP (SCTP) 应 用 程序 而 言 ， 这 由 TCP (或 SCTP) 
本 身 完 成 。 对 于 UDP 应 用 程序 而 言 ， 这 得 由 应 用 程序 完成 ， 因 为 UDP 是 不 可 靠 的 ;我 们 在 22.5 
节 给 出 了 这 样 的 一 个 例子 。 i 

IP 层 最 重要 的 功能 之 一 是 路 由 (routing)。 每 个 IP 数 据 报 包 含 一 个 源 地 址 和 一 个 目的 地 址 。 
图 A-1 展 示 了 IPv4 数 据 报 首部 的 格式 。 


0 3 4 78 13 14 15 16 31 






总 长 度 〔 字 节 单 位 ) 






32 位 源 IPv4 地 址 
32 位 目的 IPv4 地 址 
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e 4 位 版 本 (version) 字段 值 为 4。 这 是 自 20 世 纪 80 年 代 早 期 以 来 一 直 在 使 用 的 IP 版 本 。 

e 首部 长 度 (header length) 字段 是 包括 任何 选项 在 内 的 整个 了 首部 的 32 位 字 长 度 。 这 个 4 
位 字段 的 最 大 取 值 为 15， 因 而 IP 首 部 的 最 大 长 度 为 60 个 字 节 。 扣 除 首 部 固定 部 分 所 占据 
的 20 字 节 外 ， 它 最 多 允许 40 个 字 节 的 选项 。 

e 历史 性 的 8 位 服务 类 型 (type-of-service, TOS) 字段 (RFC 1349 [Almquist 1992 D. 已 被 
替换 为 两 个 字段 : 6 位 区 分 服务 码 点 (Differentiated Services Code Point, DSCP, RFC 2474 
[Nichols et al. 1998 D 和 2 位 显 式 拥塞 通知 (Explicit Congestion Notification, ECN, RFC 
3168 [Ramakrishnan, Floyd, and Black 2001])。 我 们 可 以 使 用 IP_TOoSs 套 接 字 选项 设置 该 
字段 (7.6 节 )， 虽 然 内 核 可 能 覆盖 为 了 实施 Diffserv 策 略 或 实现 ECN 而 设置 的 值 。 

e 16 位 总 长 度 (total length) 字段 是 包括 IPv4 首 部 在 内 的 整个 中 数据 报 的 字 节 长 度 。 数 据 报 

中 的 数据 量 就 是 本 字段 减 掉 4 乘 以 首部 长 度 〈 回 顾 - 下， 首部 长 度 都 是 32 位 或 4 字 节 的 整 

数 倍 )。 本 字段 是 必需 的 ， 因 为 有 些 数据 链 路 要 求 把 帧 垫 补 成 某 个 最 小 长 度 〈 例 如 以 太 

网 )， 因 而 有 效 卫 数据 报 的 大 小 有 可 能 小 于 数据 链 路 的 最 小 长 度 。 

16 位 标识 〈identification) 字段 由 卫 模 块 为 每 个 IP 数 据 报 设置 成 不 同 的 值 ， 用 于 分 片 和 重 

组 〈2.11 节 )。 该 字段 必须 就 源 IPv4 地 址 、 目 的 IPv4 地 址 和 协议 这 三 个 字段 至 少 在 数据 报 

的 网 络 存活 期 ?唯一 标识 每 个 IP 数 据 报 。 如 果 分 组 不 会 被 分 片 〈 但 如 设置 了 DF 位 )， 那 么 “869 

就 不 需 设 置 此 字段 。 870 

e DF (表示 don't fragment， 不 要 分 片 ) 位 、MF (表示 more fragments， 还 有 片段 ) 位 和 13 
位 片段 偏 移 (fragment offset) 字段 也 用 于 分 片 和 重组 . DF 位 还 用 于 路 径 MTU 发 现 (2.11 节 )。 

e 8 位 存活 时 间 (time-to-live, TTL) 字段 由 本 IP 数 据 报 的 发 送 者 设置 ， 并 由 转发 它 的 每 个 
路 由 器 递减 ( 即 减 去 1)。 当 被 减 到 0 时 ， 相 应 路 由 器 就 丢弃 该 数据 报 。 任何 IP 数 据 报 的 生 
命 期 限定 为 最 多 255 跳 。 本 字段 的 常用 默认 值 为 64, 不 过 我 们 可 以 使 用 套 接 字 选 项 TP_TTL 
和 IP_MULTICAST_TTL 〈7.6 节 ) 查询 和 修改 这 个 默认 值 。 

e 8 位 协议 (protocol) 字 段 指定 包含 在 本 了 数据 报 中 的 数据 类 型 。 它 的 典型 值 有 1(ICMPv4)、 
2 (IGMPv4). 6 (TCP) £117 (UDP). 这 些 值 由 IANA 的 “ProtocolNumbers ”注册 处 [IANA] 
登记 并 提供 查询 。 

e 16 位 首部 检验 和 (header checksum) 字段 只 对 IP 首 部 〈 包 括 任何 选项 ) 进行 计算 。 其 算 
法 是 标准 的 网 际 网 校 验 和 算法 ， 即 简单 的 16 位 反 码 加 法 〈16-bit ones-complement 
addition)， 如 图 28-15 所 示 。 

e 源 IPv4 地 址 (source IPv4 address》 和 目的 IPv4 地 址 (destination IPv4 address) 都 是 32 位 
字段 。 

e 选项 (options) 字段 我 们 已 在 27.2 节 叙述 过 ， 并 在 27.3 节 给 出 了 一 个 使 用 IPv4 源 路 径 选项 
的 例子 。 


A.3 IPv6 首部 





图 A-2 给 出 了 IPv6 首 部 的 格式 (RFC 2460 [Deering and Hinden 1998 ]). 


O 类 似 TCP 的 最 大 分 节 生 命 期 MSL 概 念 ， 不 过 一 个 IP 数 据 报 被 分 片 成 多 个 分 组 之 后 ， 每 个 分 组 各 自 有 网 络 存活 期 ， 
整个 IP 数 据 报 的 网 络 存活 期 可 视 为 各 个 分 组 网 络 存活 期 之 和 。 一 一 译 者 注 
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128 位 源 IPv6 地 址 


40 字 节 


128 位 目的 IPv6 地 址 





图 A-2 ”IPv6 首 部 格式 


e 4 位 版 本 (version) 字段 值 为 6。 由 于 本 字段 占据 首部 第 一 个 字 节 的 前 4 位 (就 如 图 A-1 给 
出 的 IPv4 版 本 字段 )， 因 此 它 允 许 支 持 这 两 个 版 本 的 接收 人 协议 栈 区 分 它们 。 不 过 由 于 
IPv4 和 IPv6 因 互 不 兼容 而 被 视 为 不 同 的 协议 族 ， 封 装 IPv4 或 IPv6 分 组 的 数据 链 路 帧 〈 璧 
如 说 以 太 网 帧 ) 就 已 经 使 用 不 同 的 协议 族 字 段 值 区 分 了 它们 ， 接 收 数据 链 路 层 据 此 把 它 
们 递送 到 分 离 的 IPv4 模 块 或 IPv6 模 块 。 

20 世 纪 90 年 代 初 期 开发 IPv6 时 ， 在 赋予 它 6 这 个 版 本 号 之 前 ,该 协议 称 为 Png， 表示 
“下 一 代 IP CIP next generation)”。 你 可 能 仍然 会 碰 到 IPng 这 个 称谓 。 

e 历史 性 的 8 位 流通 类 别 (traffic class) 字段 (RFC 24600. 现 已 被 替换 为 两 个 字段 ; 6 位 区 
分 服务 码 点 (Differentiated Services Code Point, DSCP, RFC 2474 [Nichols et al. 1998]) 
和 2 位 显 式 拥塞 通知 (Explicit Congestion Notification, ECN, RFC 3168 [Ramakrishnan, 
Floyd, and Black 2001])。 我 们 可 以 使 用 IPV6_TCLASS 套 接 字 选 项 设置 该 字段 (22.8 节 )， 
虽然 内 核 可 能 覆盖 为 了 实施 Diffserv 策 略 或 实现 ECN 所 设置 的 值 。 

e 20 位 流标 签 〈flow label〉 字 段 可 以 由 应 用 进程 或 内 核 为 某 个 给 定 的 套 接 字 选取 ， 应 用 于 
通过 该 套 接 字 发 送 的 任何 IPv6 数 据 报 。 所 谓 的 流 (flow) 指 的 是 从 某 个 特定 源头 到 某 个 
特定 目的 地 的 一 个 分 组 序列 ， 而 且 该 源头 期 望 中 间 的 路 由 器 对 这 些 分 组 进行 特殊 处 理 。 
对 于 一 个 给 定 的 流 ， 其 流标 签 一 经 源头 选 定 就 不 再 改变 ， 也 就 是 说 中 间 路 由 器 不 能 像 对 
待 DSCP 和 ECN 字 段 那 样 重 新 设置 本 字段 。 值 为 0 的 流标 签 〈 默 认 设置 ) 标识 并 不 属于 任 
何 一 个 流 的 分 组 。[Rajahalme et al. 2003] 讲解 了 本 字段 尚 处 于 试验 之 中 的 用 途 。 

流标 签 的 访问 接口 尚未 完全 定义 。sockaddr_in6 套 接 字 地 址 结构 的 sin6_ 
flowinfok® CÉd3-4) 原初 是 为 留待 他 用 所 保留 的 。 有 些 系统 直接 将 sin6_flowinfo 
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的 低 28 位 复制 到 IPv6 分 组 首部 中 ， 来 覆盖 DSCP 和 ECN 字 段 。 

e 16 位 净 荷 长 度 (payload length) 字段 是 40 字 节 IPv6 首 部 之 后 所 有 内 容 的 字 节 长 度 (可 能 
出 现 的 扩展 首部 也 计算 在 内 ， 因 此 并 非 真 正 的 净 荷 即 所 承载 上 层 协议 数据 单元 的 长 度 )。 
本 字段 与 ]Pv4 总 长 度 字 段 的 区 别 在 于 后 者 把 IPv4 首 部 也 计算 在 内 。 本 字段 值 为 0 表示 实际 
长 度 超过 16 位 字段 的 表示 范围 (可 见 不 存 在 只 含有 IPv6 首 部 的 IPv6 数 据 报 )， 于 是 存放 在 
一 个 特大 净 荷 选项 中 (图 27-9)。 这 样 的 数据 报 称 为 特大 报 Gumbogram) - 

e 8 位 下 一 个 首部 (nextheader) 字段 类 似 于 IPv4 的 协议 字段 。 事 实 上 如 果 上 层 协 议 基本 上 
无 变化 ，IPv6 和 IPv4 的 这 两 个 字段 就 使 用 相同 的 值 ， 例 如 6 代表 TCP，17 代 表 UDP。 从 
ICMPv4 到 ICMPv6 的 变化 却 比较 多 ， 以 至 于 后 者 被 赋 给 一 个 新 值 58。 

一 个 IPv6 数 据 报 可 以 在 其 40 字 节 的 IPv6 首 部 之 后 跟 以 多 个 首部 。 这 就 是 之 所 以 称 本 
字段 为 “下 一 个 首部 ”而 非 “协议 ”的 原因 。 

e 8 位 跳 限 Chop limit) 字段 类 似 于 IPv4 的 TTL 字 段 。 一 个 IPv6 分 组 的 跳 限 字段 值 由 转发 它 
的 每 个 路 由 器 递减 〈 即 减 去 1)， 如 果 某 个 路 由 器 把 该 字段 值 减 成 (， 它 就 丢弃 该 分 组 。 
我 们 可 以 使 用 套 接 字 选 项 IPV6_UNICAST_HOPS 和 IPV6_MULTICAST_HOPS 设 置 与 获取 本 
字段 的 默认 值 (7.8 节 和 21.6 节 )， 也 可 以 使 用 TPV6_HOPLIMIT 套 接 字 选 项 设置 本 字段 的 
当前 值 ， 并 使 用 IPV6_RECVHOPLIMIT 套 接 字 选项 获取 接收 数据 报 的 本 字段 值 。 

IPv4 早 期 规范 要 求 路 由 器 把 所 转发 JPv4 分 组 的 TTL 字 段 值 或 者 减 去 1， 或 者 减 去 路 由 器 存 
储 该 分 组 的 秒 数 ， 具 体 取 决 于 哪个 值 比较 大 。 其 名 称 “存活 时 间 ” 就 是 如 此 而 来 。 然 而 在 现 
实 中 该 字段 值 总 是 减 去 1。IPv6 要 求 它 的 跳 限 字段 总 是 减 去 1， 因 而 换 了 个 不 同 于 IPv4 的 名 称 。 

e 源 IPv6 地 址 (source IPv6 address) 和 目的 IPv6 地 址 (destination IPv6 address) 都 是 128 位 
字段 。 

从 IPv4 到 IPv6 的 最 显著 变化 自然 是 IPv6 采 用 更 大 的 地 址 字段 。 另 一 个 变化 是 简化 IPv6 首 部 ， 


因为 首部 越 简单 ， 路 由 器 处 理 起 来 也 更 快 。 这 两 种 首部 之 闻 的 其 他 变化 还 有 以 下 几 点 。 


e IPv6 没 有 首部 长 度 字 段 ， 因 为 IPv6 首 部 没有 选项 字段 。 固 定 为 40 字 节 的 IPv6 首 部 之 后 可 
跟 以 任意 种 类 和 数目 的 扩展 首部 ， 不 过 它们 都 有 各 自 的 长 度 字 段 。 

e 如 果 首 部 本 身 64 位 对 齐 ， 那 两 个 IPv6 地 址 字段 也 在 64 位 边界 对 齐 。 这 样 可 以 加 快 在 64 位 
体系 结构 上 的 处 理 。 而 IPv4 地 址 即使 在 64 位 对 齐 的 IPv4 首 部 中 也 只 是 32 位 对 齐 的 。 

e IPv6 首 部 没有 用 于 分 片 的 字段 ， 因 为 IPv6 男 有 一 个 独立 的 分 片 首部 用 于 该 目的 。 做 出 如 
此 设计 决策 是 因为 分 片 属于 异常 情况 ， 而 异常 情况 不 应 该 减 慢 正常 处 理 。 

e IPv6 首 部 没有 其 自身 的 校 验 和 字段 。 这 是 因为 所 有 上 层 协 议 CTCP、UDP 和 ICMPv6) 数 
据 单元 都 有 各 自 的 校 验 和 字段 ， 其 校 验 范围 包括 上 层 协 议 首部 、 上 层 协议 数据 及 IPv6 首 
部 的 如 下 字段 : IPv6 源 地 址 、IPv6 目 的 地 址 、 净 荷 长 度 和 下 一 个 首部 。 通 过 从 IPv6 首 部 
省 去 校 验 和 字段 ， 转 发 IPv6 分 组 的 路 由 器 不 必 在 修改 跳 限 字段 值 之 后 重新 计算 首部 校 验 
和 。 这 里 加 快 路 由 器 的 转发 速度 再 次 成 为 设计 的 关键 点 。 

我 们 另外 指出 从 IPv4 到 IPv6 的 以 下 重要 变更 ， 以 防 你 还 是 首次 接触 IPv6。 

e IPv6 没 有 广播 (第 20 章 )。 对 于 IPv4 是 可 选 的 多 播 〈 第 21 章 ) 却 是 IPv6 一 个 组 成 部 分 。 向 
子 网 中 所 有 系统 发 送 数据 的 任务 是 由 全 节点 多 播 组 处 理 的 。 

o IPv6 路 由 器 不 对 所 转发 的 分 组 执行 分 片 。 如 果 不 经 分 片 无 法 转发 某 个 分 组 ， 路 由 器 就 丢 
弃 该 分 组 ， 同 时 向 其 源头 发 送 一 个 ICMPv6 错 误 (A.6 节 )。 也 就 是 说 IPv6 的 分 片 只 发 生 在 
IPv6 数 据 报 的 源头 主机 上 。 
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e IPv6 要 求 支持 路 径 MTU 发 现 功能 (2.11 节 )。 从 技术 上 说 这 种 支持 是 可 选 的 ， 诸 如 自 举 引 
导 加 载 器 等 程序 中 的 最 小 实现 就 可 以 省 略 这 种 支持 ， 然 而 如 果 某 个 节点 没有 实现 这 个 功 
能 ， 它 就 不 能 发 送 超过 IPv6 最 小 链 路 MTU 〈1280 字 节 ) 的 数据 报 。22.9 节 讲解 了 控制 路 
径 MTU 发 现行 为 的 套 接 字 选 项 。 

e IPv6 要 求 支持 认证 和 安全 选项 。 这 些 选项 出 现在 固定 首部 之 后 。 





32 位 长 度 的 IPv4 地 址 通常 书写 成 以 点 号 分 隔 的 4 个 十 进 制 数 ， 称 为 点 分 十 进 制 数 记 法 
(dotted-decimal notation)， 其 中 每 个 十 进 制 数 代表 32 位 地 址 4 个 字 节 中 的 某 一 个 。 这 4 个 十 进 制 数 
的 第 一 个 标识 地 址 类 别 ， 如 图 A-3 所 示 。 历 史上 IPv4 地 址 曾 被 划分 成 5 类 ， 其 中 3 类 用 作 功 能 等 同 
的 单 播 地 址 ， 并 且 从 20 世 纪 90 年 代 中 期 开始 随 着 无 类 (classless) 地 址 概念 的 提出 而 被 认为 不 再 
存在 类 别 ， 因 而 作为 单个 范围 展示 。 


0.0.0.0 到 223.255.255.255 


224.0.0.0 到 239.255.255.255 
240.0.0.0$/247.255.255.255 


FdA-3 ”IPv4 地 址 5 个 类 别 的 范围 


无 论 在 何 时 谈 到 IPv4 网 络 或 子 网 地 址 ， 所 说 的 都 是 一 个 32 位 网 络 地 址 和 一 个 相应 的 32 位 掩 
码 。 掩 码 中 值 为 1 的 位 涵盖 网 络 地 址 部 分 ， 值 为 0 的 位 涵盖 主机 地 址 部 分 。 既 然 掩 码 中 值 为 1 的 位 
总 是 从 最 左 位 向 右 连 续 排列 , 值 为 0 的 位 总 是 从 最 右 位 向 左 连续 排列 ， 因 此 地 址 掩 码 也 可 以 使 用 
表示 从 最 左 位 向 右 排列 的 值 为 1 的 连续 位 数 的 前 组 长 度 (prefix length) 指定 。 举 例 来 说 ， 掩 码 
是 255.255.255.0， 则 前 级 长 度 为 24。 这 些 IPv4 地 址 被 认为 是 无 类 的 ， 之 所 以 这 么 称呼 ， 是 因为 
现在 掩 码 是 显 式 指定 而 非 由 地 址 类 型 暗 指 的 。IPv4 网 络 地 址 通常 书写 成 一 个 点 分 十 进 制 数 串 ， 
后 跟 一 个 斜 枉 ， 再 跟 以 前 缘 长 度 。 图 1-16 展 示 了 这 样 的 例子 。 

没有 一 个 RFC 排 除非 连续 子 网 掩 码 的 合法 性 ， 不 过 这 种 掩 码 容易 造成 混淆 ， 也 没 法 以 前 
组 记 法 表示 。 因特网 域 间 路 由 协议 BGP4 不 能 表示 非 连 续 子 网 掩 码 . IPv6 同 样 要 求 所 有 地 址 掩 
码 从 最 左 位 开始 保持 连续 。 

使 用 无 类 地 址 要 求 无 类 路 由 , 它 通常 称 为 无 类 域 间 路 由 (classless interdomain routing, CIDR ) 
CRFC 1519 [Fuller et al. 1993 ])。 使 用 CIDR 的 目的 在 于 减少 因特网 主干 路 由 表 的 大 小 ， 延 组 IPv4 
地 址 耗 尽 的 速率 。CIDR 中 每 个 路 径 必 须 伴 以 一 个 掩 码 或 前 缀 长 度 。 地 址 类 型 不 再 暗含 掩 码 。 
TCPv1 的 10.8 节 更 详细 地 讨论 CIDR。 


A.4.1 子 网 地 址 


IPv4 地 址 通常 划分 子 网 (RFC 950 [Mogul and Postel 1985])。 这 么 做 增加 了 另外 一 级 地 址 
层次 : 

e ARID 〈 分 配给 网 点 ); 

e TID (由 网 点 选择 ); 

e EHUD (HAAR). 

网 络 ID 和 子 网 ID 之 间 的 界线 由 所 分 配 网 络 地址 的 前 缀 长 度 确定 ， 而 这 个 前 缀 长 度 通常 由 相 
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应 组 织 机 构 的 ISP 赋 予 。 然而 子 网 人 D 和 主机 ID 之 间 的 界线 却 由 网 点 选择 。 某 个 给 定子 网 上 所 有 主 
机 都 共享 同一 个 子 网 掩 码 (subnet mask)， 它 指定 子 网 信和 主机 ID 之 间 的 界线 。 子 网 掩 码 中 值 为 
1 的 位 涵盖 网 络 ID 和 子 网 ID， 值 为 0 的 位 则 涵盖 主机 ID。 

作为 一 个 例子 ， 考 虑 某 个 网 点 被 它 的 ISP 赋 予 一 个 私 用 网 络 地 址 192.168.42.0/24。 这 个 网 点 
随后 把 剩余 8 位 划分 成 3 位 子 网 ID 和 5 位 主机 ID， 如 图 A-4 所 示 。 


由 所 分 配 地 址 的 前 由 子 网 掩 码 
绷 长 度 确定 的 界线 确定 的 界线 


24 位 poe d om 


地 址 : 网 络 地 址 =192.168.42.0/24 


子 网 掩 码 ; 7 00000 
值 为 0 的 位 





值 为 1 的 位 涵盖 网 络 地 址 的 子 网 ID 网 点 ， 涵 盖 主 机 ID 


公 网 拓扑 拓扑 主机 ID 
图 A-4 “24 位 网 络 ID 伴 以 3 位 子 网 ID 和 5 位 主机 ID 
图 A-5 列 出 了 如 此 划分 形成 的 所 有 子 网 。? 
192.168.42.0/27 


192.168.42.32/27 
192.168.42.64/27 


192.168.42.96/27 

192.168.42.128/27 
192.168.42.160/27 
192.168.42.192/27 
192.168.42.224/27 


图 A-5 3 位 子 网 ID 和 5 位 主机 ID 的 子 网 列表 





如 此 划分 形成 6 至 8 个 子 网 ( 子 网 ID 为 1~6 或 0-7)， 每 个 子 网 支持 30 个 主机 (主机 ID 为 1~30)。 
RFC 950 建 议 不 要 使 用 子 网 ID 各 位 全 为 0 或 全 为 1 的 那 两 个 子 网 〈 本 例子 为 子 网 ID 分 别 为 0 和 7 的 
子 网 )， 不 过 如 今 大 多 数 系统 支持 这 两 种 格式 的 子 网 ID。 主 机 ID 各 位 全 为 1 的 地 址 〈 本 例子 的 主 
机 ID 为 31) 是 相应 子 网 的 定向 广播 地 址 〈20.2 节 )。 主 机 ID 各 位 全 为 0 的 地 址 用 于 标识 相应 子 网 ， 
同时 避免 与 把 0 值 主 机 ID 用 作 子 网 定向 广播 地 址 的 较 旧 系统 发 生 冲突 。 然 而 如 果 能 够 保 准 子 网 上 
不 存在 这 样 的 系统 ,那么 使 用 0 值 主 机 ID 标识 一 个 主机 也 是 可 能 的 。 总 的 来 讲 ， 网 络 程序 无 需 关 
心 子 网 或 主机 ID 的 指定 ， 而 应 该 将 下 地 址 视 作 不 透明 的 值 。 


A4.2 IKEA 


按照 约定 ， 地 址 127.0.0.1 赋 予 环 回 接口 。 任 何 发 送 到 这 个 下 地 址 的 分 组 在 内 部 被 环 送 回来 
作为 IP 模 块 的 输入 ， 因 而 这 些 分 组 根本 不 会 出 现在 网 络 上 。 我 们 在 同一 个 主机 .上 测试 客户 和 服 
务 器 程序 时 经 常 使 用 该 地 址 。 该 地 址 通常 为 人 所 知 的 名 字 是 INADDR_LOOPBACK。 


O 这 些 地 址 的 子 网 掩 码 是 0xffffffe0 或 235.255.255.224。 整 个 网 络 地 址 〈192.168.42.0/24) 和 各 个 子 网 地 址 (例如 
192.168.42.32/27) 使 用 同样 的 前 级 表示 记 法 。 
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网 络 127.0.0.0/8 上 任何 地 址 都 可 以 赋予 环 回 接口 ， 但 是 127.0.0.1 是 其 中 最 常用 的 ， 往 往 由 
系统 自动 配置 、 


A.4.3 未 指明 地 址 


所 有 32 位 均 为 0 的 地 址 是 IPv4 的 未 指明 地 址 (unspecified address)。 这 个 IP 地 址 只 能 作为 源 
地 址 出 现在 IPv4 分 组 中 ， 而 且 是 在 其 发 送 主 机 处 于 获悉 自身 于 地 址 之 前 的 自 举 引 导 过 程 期 间 。 
在 套 接 字 API 中 该 地 址 称 为 通 配 地 址 ， 其 通常 为 人 所 知 的 名 字 是 INADDR_ANY。 在 套 接 字 API 中 
绑 定 该 地 址 〈 例 如 为 了 监听 某 套 接 字 ) 表示 会 接受 目的 地 为 任何 节点 的 IPv4 地 址 的 客户 连接 。 


A.4.4 ” 私 用 地 址 


RFC 1918 [Rekhter etal. 1996] 留置 了 车 于 段 地 址 范围 供 “ 私 用 网 际 网 ”(private internets) 
使 用 ， 这 些 网 络 不 能 直接 接 入 到 公用 因特网 中 ， 除 非 中 间 介 以 NAT 或 代理 设备 。 这 些 地 址 范围 
如 图 A-6 所 示 。 


16777216 10/8 10.0.0.0 到 10.255.255.255 
1 048 576 172.16/12 172.16.0.0 到 172.31.255.255 
65 536 192.168/16 


192.168.0.0$/192.168.255.255 



















图 A-6 私 用 IPv4 地 址 范围 


这 些 地 址 绝 不 能 出 现在 因特网 上 ， 它 们 是 为 私 用 网 络 保留 的 。 许 多 小 规模 网 点 结合 NAT 技 
术 使 用 这 些 私 用 地 址 ， 在 一 个 或 多 个 因特网 上 可 用 的 公用 下 地 址 和 所 用 私 用 地 址 之 间 进 行 地 址 
转换 。 
A4.5 ”多 宿 与 地 址 别名 


多 宿主 机 (multihomed host) 的 传统 定义 是 具有 多 个 接口 的 主机 : 例如 两 个 以 太 网 链 路 或 
者 一 个 以 太 网 链 路 加 一 个 点 到 点 链 路 。 每 个 接口 必须 有 一 个 唯一 的 IPv4 地 址 。 计 量 一 个 主机 的 
接口 数 是 否 超 过 一 个 以 确定 它 是 否 多 宿 时 ， 环 回 接口 不 计 在 内 。 
路 由 器 按 定义 是 多 宿 的 ， 因 为 它 把 到 达 某 个 接口 的 分 组 转发 到 另 一 个 接口 。 然 而 多 宿主 机 
却 不 必 一 定 是 路 由 器 ， 除 非 它们 转发 分 组 。 事 实 上 一 个 多 宿主 机 不 应 该 仅仅 因为 拥有 多 个 接口 
而 自我 认定 是 一 个 路 由 器 ;除非 已 被 配置 成 作为 路 由 器 〈 典 型 手段 是 由 系统 管理 员 开 启 某 个 配 
贰 选项 )， 否 则 它 绝 不 能 扮演 这 个 角色 。 
然而 多 宿 (multihoming) 这 个 说 法 现 已 变 得 更 为 一 般 化 ， 包 括 两 种 不 同情 形 〈RFC 1122 
[Braden 1989] 的 3.3.4 节 )。 
e 拥有 多 个 接口 的 主机 是 多 宿 的 ， 每 个 接口 必须 有 各 自 的 IP 地 址 ， 不 过 未 指定 网 络 地 址 的 
Cunnumbered) 接口 允许 出 现在 点 到 点 链 路 上 。 这 是 传统 的 定义 。 
e 较 新 的 主机 具备 把 多 个 人 地 址 赋予 单个 给 定 物 理 接口 的 能 力 。 除 第 一 个 JP 地 址 即 主 地 址 
外 的 每 个 额外 下 地 址 称 为 该 接口 的 一 个 别名 (alias》 地 址 或 逻辑 接口 (logical interface) 
地 址 。 通 常 别 名 地 址 和 主 地址 共享 同一 个 子 网 地 址 ， 只 是 主机 ID 不 同 而 已 。 不 过 别名 地 
址 也 可 能 具有 完全 不 同 于 主 地 址 的 网 络 地 址 或 子 网 地 址 。 我 们 在 17.6 节 给 出 了 一 个 别名 
地 址 的 例子 。 
可 见 多 宿主 机 的 定义 是 具有 多 个 人 下层 可 见 接口 (扣除 回馈 接口 ) 的 主机 ， 至 于 这 些 接口 是 
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物理 的 还 是 逻辑 的 则 不 必 关 心 。 
给 予 网 络 负荷 极 高 的 某 个 服务 器 主机 到 同一 个 以 太 网 交换 机 的 多 个 物理 连接 ， 并 把 这 些 
连接 汇聚 成 一 个 更 高 带宽 的 还 辑 连接 ， 这 种 做 法 并 不 鲜 见 ， 这 样 的 主机 不 能 因为 拥有 多 个 物 
理 接口 而 被 认为 是 多 宿 的 ， 因 为 在 IP 层 看 来 它们 是 单个 远 辑 接口 。 
多 宿 也 用 于 另 一 个 上 下 文中 。 有 多 个 连接 通达 因特网 的 网 络 也 称 为 多 宿 的 。 举 例 来 说 ， 
有 些 网 点 有 两 个 而 非 一 个 通达 因特网 的 连接 ， 以 此 提供 因特网 接 入 的 备份 能 力 。SCTP 传 输 协 
议 能 从 多 重 连接 (通过 联系 多 宿 网 点 ) PRA. 


NE Tie TT ee ne ee ene Lam KZ OR LAC EOD Ete i Quum. GIL yu MUN V TP TORIS ET eo NP OPI OO OUR LAN me 


A5 IPv6 地 址 


IPv6 地 址 有 128 位 ,通常 书写 成 以 冒号 分 隔 的 8 个 16 位 值 的 十 六 进 制 数 。 IPv6 地 址 的 128 位 地 
址 的 高 序 位 隐 含 地 址 类 型 (RFC 3513 [Hinden and Deering 2003])。 图 A-7 给 出 了 高 序 位 不 同 取 


值 与 所 隐 含 地 址 类 型 的 关系 。? 


未 分 配 不 适用 0000 0000 .. 0000 0000 (128 位 ) | RFC 3513 

环 回 地 址 不 适用 0000 0000 .. 0000 0001 (128 位 ) | RFC 3513 
全 球 单 播 地 址 任意 大 小 000 RFC 3513 
全 球 基于 NSAP 的 地 址 任意 大 小 0000001 RFC 1888 


可 聚集 的 全 球 单 播 地 址 64 位 001 RFC 3587 
全 球 单 播 地 址 64 位 ( 若 无 特 别 声明 ， 可 以 随意 ) RFC 3513 


链 路 局 部 单 播 地 址 64 位 1111 1110 10 RFC 3513 

网 点 局 部 单 播 地 址 64 位 | 1111 1110 11 RFC 3513 

多 播 地 址 
图 A-7 JPv6 地 址 中 高 序 位 的 含义 









































© 图 A-7 既 不 完备 又 存在 不 少 雇 误 ， 译 者 根据 RFC 3513 和 Stevens 先 生 在 第 ?版 中 给 出 的 图 修订 为 下 面 的 图 A-7A。 













一 一 译 者 注 
EX 
保留 0000 0000 1/256 不 适用 3513 
未 分 配 0000 0001 1/256 不 适用 3513 












未 分 配 0000 01 
未 分 配 0000 1 
未 分 配 0001 
全 球 单 播 地 址 

010 







011 
100 
101 
110 
1110 
1111 0 
1111 10 
1211 110 
1111 1110 0 


链接 局 部 单 播 地 址 1111 1110 10 1/1024 64 位 RFC 3513 

网 点 局 部 单 播 地 址 1 1110 12 1/1024 64 位 RFC 3513 

zm puru fs areas) 
图 A-7A ”IPv6 地 址 中 高 序 位 的 含义 (修订 ) 
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这 些 高 序 位 称 为 格式 前 缓 Cformat prefix)。 其 中 高 序 8 位 是 00000000 的 保留 地 址 范围 中 已 经 
定义 未 指明 地 址 Cunspecified address)、 环 回 地 址 (loopback address) 和 嵌入 IPv4 地 址 的 IPv6 地 
址 ， 后 者 包括 IPv4 兼 容 的 IPv6 地 址 〈IPv4-compatible IPv6 address) 和 IPv4 映 射 的 IPv6 地 址 
CIPv4-mapped IPv6 address)， 具 体 稍 后 讨论 。 


A.5.1 全球 单 播 地 址 


按照 RFC 3513， 未 指明 地 址 、 环 回 地 址 、 链 接 局 部 单 播 地 址 (link-local unicast address) 
网 点 局 部 单 播 地 址 Csite-local unicast address) 和 多 播 地 址 以 外 的 所 有 IPv6 地 址 都 是 全 球 (或 全 
局 ) 单 播 地 址 (global unicast address)， 不 过 当前 全 球 单 播 地 址 空间 的 分 配 限 制 在 以 001 打 头 的 
地 址 范围 ， 其 余地 址 空间 留待 将 来 分 配 。 全 球 单 播 地 址 的 一 般 格式 是 可 汇聚 的 ， 从 最 左 位 开始 
往 右 包含 以 下 各 个 字段 ， 并 如 图 A-8 所 示 : 

e 全 球 路 由 前 级 〈n 位 ); 

e T MID (64-n 位 ); 

e 接口 ID (64 位 )。 


n 位 j 64-n 位 64 位 


| 公 网 拓扑 网 点 拓扑 | 接口 标识 | 


图 A-8 IPv6 全 球 单 播 地 址 一 般 格 式 


全 球 路 由 前 缀 是 赋予 某 个 网 点 的 网 络 标识 〈 通 常 具 有 层次 结构 )， 子 网 ID 是 该 网 点 内 某 个 
链 路 的 标识 ， 接 口 ID 是 该 链 路 上 某 个 接口 的 标识 。 以 000 打 头 地 址 范围 之 外 的 所 有 全 球 单 播 地 
址 都 有 一 个 64 位 的 接口 ID 字段 。 接 口 ID 必须 按照 经 修正 的 IEEE EUI-64 格 式 构造 。IEEE EUI-64 
[IEEE 1997 ] 是 赋予 大 多 数 LAN 接 口 卡 的 48 位 IEEE 802 MAC 地 址 的 一 个 超 集 ， 修 正 它 们 的 目的 
仅仅 是 略微 方便 系统 管理 员 在 硬件 接口 地 址 不 可 得 情况 下 《例如 点 到 点 链 路 或 隧道 端点 ) 手工 
配置 非 全 球 ID 而 已 。 要 是 可 能 的 话 ，IPv6 应 该 基于 一 个 接口 的 硬件 MAC 地 址 自动 赋予 它 一 个 接 
OID. 构造 基于 经 修正 EUI-64 的 接口 ID 的 细节 详 见 RFC 3513 [Hinden and Deering 2003 ] 附录 A。 
注意 ， 以 000 打 头 地 址 范围 之 内 的 全 球 单 播 地 址 〈 例 如 IPv4 兼 容 的 IPv6 地 址 和 IPv4 映 射 的 ITPv6 地 
Hb) 没有 接口 ID 字段 在 大 小 或 结构 上 的 如 此 限制 。 

既然 一 个 经 修正 IEEE EUI-64 可 以 是 某 个 给 定 接口 的 全 球 唯一 标识 , 而 一 个 接口 也 可 以 标识 

-个 用 户 ， 经 修正 的 IEEE EUI-64 格 式 于 是 唤起 所 谓 的 隐私 性 考虑 。 举 例 来 说 ， 通 过 追踪 某 个 给 
定 用 户 所 携带 的 笔记 本 电脑 产生 的 IPv6 地 址 中 嵌入 的 EUI-64 值 ， 该 用 户 的 行为 和 运动 有 可 能 被 
掌握 。RFC 3041 [Narten and Draves 2001] 讲解 了 接口 ID 的 隐私 性 扩展 ， 它 能 够 每 天 数 次 变更 
接口 ID 以 避免 暴露 隐私 。 


A.5.2 6bone 测试 地 址 


6bone 是 一 个 用 于 早期 IPv6 协 议 测试 的 虚拟 网 络 〈B.3 节 )。 以 001 打 头 的 那 部 分 全 球 单 播 地 
址 范围 开始 分 配 之 后 ，6bone 就 按照 使 用 其 中 某 个 特殊 格式 的 诛 定 计划 把 以 0ox5f 打 头 的 临时 性 
6bone 地 址 更 换 成 了 以 0x3ffe 打 头 的 永久 性 6bone 地 址 (RFC 2471 [Hinden, Fink, and Postel 
1998])， 如 图 A-9 所 示 。 
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16 位 32 位 16 位 64 位 
图 A-9 用 于 6bone 的 IPv6 测 试 地址 


6bone 地 址 的 高 序 两 字 节 是 0x3ffe。32 位 的 6bone 网 点 万 由 6bone 行 动 主 席 (the chair of the6bone 
activity ) 赋 予 每 个 加 入 站 点 , 意 在 体现 现实 环境 中 IPv6 地 址 如 何 分 配 。6bone 行 动 正 在 下 马 之 中 [Fink 
and Hinden 2003]， 因 为 IJPv6 生 产 性 部 署 业已 起 步 〈2002 年 分 配 的 生产 性 地 址 量 超过 6bone 在 8 年 内 
分 配 的 地 址 量 )。 子 网 iD 和 接口 帮 如 同 全 球 单 播 邮 址 格式 ， 分 别 用 于 标识 子 网 和 接口 。 

我 们 在 11.2 节 展示 了 图 1-16 中 名 为 freebsd 的 主机 的 IPv6 地 址 为 3ffe:b80:1f8d:1:a00: 
20ff:fea7:686b。 其 中 6bone 网 点 ID 是 0x0b801f8da， 子 网 ID 是 0x1。 低 序 64 位 是 该 主机 以 太 网 
卡 MAC 地 址 的 经 修正 IEEE EUI-64 值 。 


A.5.3 IPv4 映射 的 IPv6 地 址 


IPv4 映 射 的 IPv6 地 址 允许 在 因特网 向 IPv6 过 渡 时 期 让 运行 在 同时 支持 IPv4 和 IPv6 的 主机 上 
的 IPv6 应 用 进程 能 够 与 只 支持 IPv4 的 主机 通信 。 这 些 地 址 是 在 IPv6 应 用 进程 查询 菜 个 只 有 IPv4 
地 址 的 主机 的 IPv6 地 址 时 由 DNS 解析 器 自动 创建 的 〈 图 11-8)。 

我 们 从 图 12-4 看 到 在 IPv6 套 接 字 上 使 用 这 种 类 型 的 地 址 导致 往 目的 地 IPv4 主 机 发 送 IPv4 数 
据 报 。 这 些 地址 并 不 保存 在 任何 DNS 数据 文件 中 ， 它 们 是 由 解析 器 按 需 创建 的 。 

图 A-10 展 示 了 IPv4 映 射 的 IPv6 地 址 的 格式 。 低 序 32 位 含有 一 个 IPv4 地 址 。 


0000 . : a . Š . . . 0000 IPv4 地 址 


80 位 16 32 
图 A-10 ”IPv4 映 射 的 IPv6 地 址 


书写 IPv6 地 址 时 ， 值 为 0 的 连续 数 串 可 以 简写 成 两 个 冒号 。 另 外 ， 贬 在 其 中 的 IPv4 地 址 使 用 点 分 
十 进 制 数 记 法 书写 。 举 例 来 说 ， 我 们 可 以 把 IPv4 映 射 的 Pv6 地 址 0:0:0:0:0:FFFF:12.106.32.254 
简写 成 : :FFFF:12.106.32.254. 


A.5.4 |Pv4 兼容 的 IPv6 地 址 


IPv4 兼 容 的 IPv6 地 址 也 用 于 从 IPv4 到 IPv6 的 过 渡 时 期 (RFC 2893 [Gilligan and Nordmark 
2000])。 如 果 一 个 同时 支持 IPv4 和 IPv6 的 主机 没有 邻居 IPv6 路 由 器 ， 那 么 它 的 系统 管理 员 应 该 
创建 一 个 含有 IPv4 兼 容 的 IPv6 地 址 的 DNS AAAA 记 录 。 有 待 往 这 个 兼容 地 址 发 送 IPv6 数 据 报 的 
任何 其 他 IPv6 主 机 将 先 为 这 些 IPv6 数 据 报 封装 一 个 IPv4 首 部 再 发 送 ， 这 种 发 送 方式 称 为 自动 隧 
道 (automatic tunnel)。 然 而 IPv6 部 署 上 的 一 些 考 虑 却 削弱 了 这 种 地 址 的 如 此 用 途 。 我 们 将 在 B.3 
节 讨 论 隧 穿 (tunneling)， 并 在 图 B-2 中 给 出 在 一 个 IPv4 数 据 报 中 封装 一 个 IPv6 数 据 报 的 例子 。 需 
注意 的 是 ，6bone 上 的 每 个 隧道 都 是 经 配置 的 隧道 (configured tunnel)， 壁 如 说 由 系统 管理 员 通 
过 某 个 启动 文件 预先 配置 ， 然 而 对 于 IPv4 兼 容 的 IPv6 地 址 ， 只 有 地 址 需要 手工 配置 〈 例 如 作为 
一 个 AAAA 记 录 置 于 某 个 DNS 数据 文件 中 )， 隧 穿 〈 也 就 是 隧道 形成 ) 则 是 自动 的 。 

图 A-11 展 示 了 IPv4 兼 容 的 IPv6 地 址 的 格式 。 这 种 类 型 地 址 的 一 个 例子 是 ::12.106.32.254。 





0000 . x : . : ; 3 . 0000 0000 IPv4 地 址 


80 位 16 32 
图 A-11 IPv4 兼 容 的 IPv6 地 址 
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当 使 用 SIIT IPv4/IPv6 过 渡 机 制 (CRFC 2765 [Nordmark 2000]? 时 ，IPv4 兼 容 的 IPv6 地 址 也 
可 以 作为 非 隧 穿 ITPv6 分 组 的 源 地 址 或 目的 地 址 。 


A.5.5 ” 环 回 地 址 

由 127 个 值 为 0 位 后 跟 单个 值 为 1 位 构成 的 IPv6 地 址 (书写 成 ::1〉 是 IPv6 的 环 回 地 址 。 在 套 
接 字 API 中 ， 环 回 地 址 为 人 所 知 的 名 字 是 in6addr_loopback 或 IN6ADDR_LOOPBACK_INIT。 
A.5.6 未 指明 地 址 


所 有 128 位 值 均 为 0 的 IPv6 地 址 (书写 成 0: :0 或 干脆 : : ) 是 IPv6 的 未 指明 地 址 。 这 个 地 址 在 IPv6 
分 组 中 只 能 作为 源 地 址 出 现 , 而 且 是 在 其 发 送 主机 处 于 获悉 自身 下 地 址 之 前 的 自 举 引导 过 程 期 间 。 

在 套 接 字 API 中 该 地 址 称 为 通 配 地 址 ， 其 为 人 所 知 的 名 字 是 in6addqr_any 或 IN6ADDR_ 
ANY_INIT。 通 过 绑 定 该 地 址 的 套 接 字 发 送 IPv6 分 组 时 ， 内 核 会 选择 一 个 本 地 地 址 作为 源 地 址 ， 除 非 
尚未 配置 任何 本 地 地 址 (这 种 情况 下 就 以 未 指明 地 址 为 源 地 址 )， 通 过 绑 定 这 个 地 址 的 套 接 字 接收 
IPv6 分 组 时 ， 内 核 把 没 法 递送 到 绑 定 更 明确 地 址 之 套 接 字 的 接收 IPv6 分 组 递送 到 这 个 通 配 套 接 字 。 


A5.7 ” 链 路 局 部 地 址 


链 路 局 部 地 址 用 在 单个 链 路 上 ， 并 且 是 在 已 知 数据 报 不 会 被 转发 的 前 提 下 。 这 种 地 址 的 使 
用 例子 包括 自 举 引导 阶段 的 自动 地 址 配置 和 以 后 的 邻居 发 现 〈 类 似 IPv4 的 ARP)。 图 A-12 展 示 了 
这 些 地 址 的 格式 。 


1111111010 | 0000 . . " z . 0000 接口 ID 


10 位 54 64 
图 A-12 ”IPv6 链 路 局 部 地 址 


这 些 地 址 总 是 以 0xfe80 打 头 。IPv6 路 由 器 绝 不 能 把 源 地 址 或 目的 地 址 为 链 路 局 部 地 址 的 数 
据 报 转发 到 其 他 链 路 。 我 们 在 11.2 节 给 出 了 与 名 字 aix_611 相 关联 的 链 路 局 部 地 址 。 


A.5.8 网 点 局 部 地 址 


在 本 书写 至 此 处 时 ，IETF 的 IPv6 工 作 组 已 决定 废弃 当前 形式 的 网 点 局 部 地 址 。 即 将 来 临 的 
替换 品 使 用 还 是 不 使 用 原初 为 网 点 局 部 地 址 定义 的 地 址 范围 (fec0/10〉 尚 未 知晓 。 这 种 地 址 
本 打算 用 于 某 个 网 点 范围 内 无 需 全 球 路 由 前 级 的 寻 址 ,图 A-13 展 示 了 这 些 地 址 原初 定义 的 格式 。 


1111111011 | 0000 . . . 0000 接口 ID 


10 位 38 16 64 
图 A-13 ”IPv6 网 点 局 部 地 址 


这 些 地 址 总 是 以 0xfec0 开 头 。IPv6 路 由 器 绝 不 能 把 源 地 址 或 目的 地 址 为 网 点 局 部 地 址 的 数 
据 报 转发 到 所 在 网 点 以 外 。 


A.6 ICMPv4 和 ICMPv6， 网 际 网 控制 消息 协议 
ICMP 是 任何 IPv4 或 IPv6 实 现 痢 必 逢 的 有 机 组 成 部 分 。 它 通常 用 于 在 节点 即 路 由 器 和 主 
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HO 之 间 互 通 出 错 消息 或 信息 性 消息 ， 不 过 应 用 程序 偶尔 也 会 使 用 它们 获取 信息 性 消息 或 出 错 
消息 ， 例 如 ping 和 traceroute 程 序 (第 28 章 ) 都 使 用 ICMP。 

ICMPv4 和 ICMPv6 消 息 的 前 32 位 是 相同 的 ， 如 图 A-14 所 示 。RFC 792 [Postel 1981b] 讲述 
TICMPv4, RFC2463 [Conta and Deering 1998] 讲述 了 ICMPv6。 

8 位 类 型 (type) 字段 是 ICMPv4 或 TCMPv6 消 息 的 类 型 ， 有 些 类 型 有 一 个 8 位 代码 (code) F 
段 提供 额外 信息 。 校 验 和 “(checksum) 字段 是 标准 的 网 际 网 检验 和 ， 不 过 在 具体 校 验 哪 些 字段 
FICMPv4 和 ICMPv6 存 在 差异 : ICMPv4 检 验 和 仅仅 校 验 ICMP 消 息 本 身 ，ICMPv6 检 验 和 的 校 验 
范围 还 包括 IPv6 伪 首部 。 


0 7 8 15 16 31 


(其 余 字 段 依赖 类 型 和 代码 及 视 ICMPv4 
还 是 ICMPv6 而 定 ) 





图 A-14 ICMPv4 和 ICMPv6 消 息 的 格式 


从 网 络 编程 角度 看 , 我 们 需要 知道 哪些 ICMP 消 息 能 够 返 送 到 应 用 进程 , 哪些 条 件 导 致 出 错 
以 及 这 些 出 错 消 息 如 何 返 送 到 应 用 进程 。 图 A-15 列 出 了 所 有 的 ICMPv4 消 息 以 及 FreeBSD 对 它们 
的 处 理 ， 图 A-16 则 列 出 了 ICMPv6 消 息 。 倒 数 第 二 栏 指出 导致 向 发 送 主 机 返 送 ICMP 出 错 消息 的 
IP 数 据 报 发 送 操作 返回 给 调用 进程 的 errno 变 量 值 。 对 于 TCP 应 用 进程 ， 这 些 错 误 只 是 在 TCP 最 
终 放 弃 重 传 尝试 时 才 返 回 。 对 于 使 用 已 连接 套 接 字 的 UDP 应 用 进程 ， 这 些 错 误 由 下 次 发 送 或 接 
手 操作 返回 ,但 在 使 用 已 连接 套 接 字 时 是 个 例外 (如 8.9 节 所 述 )。 
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目的 地 不 可 达 ; 
0 网 络 不 可 达 EHOSTUNREACH 792 
1 主机 不 可 达 EHOSTUNREACH 792 
2 协议 不 可 达 ECONNREFUSED 792 
3 端口 不 可 达 (*) ECONNREFUSED 792 
4 需 分 片 但 DF 位 已 设 EMSGSIZE 792, 1191 
5 源 路 径 失 败 EHOSTUNREACH 792 
6 目的 网 络 不 可 知 EHOSTUNREACH 1122 
7 目的 主机 不 可 知 EHOSTUNREACH 1122 
8 源 主 机 被 隔离 〈 过 时 不 用 ) EHOSTUNREACH 1122 
9 目的 网 络 由 管理 手段 禁用 EHOSTUNREACH 1108, 1122 
10 目的 主机 由 管理 手段 禁用 EHOSTUNREACH 1108, 1122 
11 因 TOS 网 络 不 可 达 EHOSTUNREACH 1122 
12 因 TOS 主 机 不 可 达 EHOSTUNREACH 1122 
13 通信 由 管理 手段 禁止 PORRO ey 
14 主机 优先 级 侵权 ECONNREFUSED 1812 
15 优先 级 有 效 截止 ECONNREFUSED 1812 





图 A-15 ” FreeBSD 对 ICMPv4 消 息 类 型 的 处 理 
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| 5 | 0  [WSX |Tcp 电 内 核 处 理 UDP 被 负 略 | 792,1812 | 


重 定向 : 












为 网 络 重 定向 内 核 更 新 路 由 表 CD 
为 主机 重 定向 内 核 更 新 路 由 表 CD 


为 服务 类 型 和 网 络 重 定向 内 核 更 新 路 由 表 (+) 





W N- O 






为 服务 类 型 和 主机 重 定向 内 核 更 新 路 由 表 (+) 
| 8 | 0  [Fiftif inp 内 核 产 生 应 答 


路 由 器 通告 

普通 路 由 器 

仅 限 可 移动 中 路 由 器 
路 由 器 征求 : 

普通 路 由 器 

仅 限 可 移动 IP 路 由 器 
超时 : 
0 传送 期 间 TTL 等 于 0 
片段 重组 发 生 超时 
参数 问题 : 




















0 IP 首 部 坏 〈 包 罗 一 切 的 错误 ) 
1 pi gom ， 
0 In BRIAR 内 核 产 生 应 答 792 


信息 请 求 〈 过 时 不 用 ) (忽略 ) 792 
信息 应 答 〈 过 时 不 用 ) 用 户 进程 


0 地 址 掩 码 请 求 内 核 产生 应 答 
地 址 掩 码 应 答 用 户 进 程 
图 A-15 (4D 


* “端口 不 可 达 ” 仅 仅 由 本 身 缺 乏 信 令 机 制 的 传输 协议 使 用 ， 这 种 机 制 可 用 于 告知 对 端 本 端 并 没有 进程 在 某 个 端 
口上 监听 。 举 例 来 说 ， 这 种 情况 下 具备 信 令 机 制 的 TCP 会 发 送 一 个 RST 分 节 ， 因 此 不 需要 “端口 不 可 达 ” 消 息 。 
+ 通过 转发 分 组 充当 路 由 器 的 系统 可 能 忽略 重 定向 消息 。 


目的 地 不 可 达 : 
没有 到 目的 地 的 路 径 
由 管理 手段 禁止 (防火 墙 过 滤器 ) 





















EHOSTUNREACH 2463 





EHOSTUNREACH 2463 












超越 围绕 源 地 址 的 范围 ENOPROTOOPT 2463bis(**) 
地 址 不 可 达 【〔 任 何其 他 原因 ) EHOSTDOWN 2463 
端口 不 可 达 (*) ECONNREFUSED 2463 
Co | o [oas ë ë o a [ue 
超时 : 
传送 期 间 超过 跳 限 





图 A-16 ICMPv6 消 息 
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错误 的 首部 字段 
无 法 认 出 下 一 个 首部 


回 射 请 求 (Ping) 内 核 产 生 应 答 
回 射 应 答 (Ping) 用 户 进 程 CPing? 


多 播 收听 者 查询 用 户 进程 


多 播 收听 者 汇报 用 户 进程 
多 播 收听 者 结束 用 户 进程 


用 户 进程 
用 户 进程 


用 户 进程 
用 户 进程 3122 


图 A-16 GE) 
** “RFC 2463bis” 指 的 是 RFC 2463 修 订 过 程 中 的 版 本 [Conta and Deering 2001 ]. 


其 中 端口 不 可 达 〈 对 于 ICMPv4 类 型 为 3 代码 为 3， 对 于 ICMPv6 类 型 为 1 代码 为 4) 仅 用 于 自 
身 无 法 通告 对 端 某 个 端口 上 无 进程 在 监听 的 传输 协议 。TCP 为 此 发 送 RST 分 节 ， 因 而 不 需要 这 
个 ICMP 出 错 消息 。 作 为 路 由 器 运作 〈 即 转发 分 组 ) 的 系统 忽略 重 定向 (对 于 ICMPv4 类 型 为 5， 
对 于 ICMPv6 类 型 为 137)。 

记号 “用 户 进程 ”意味 着 内 核 不 处 理 这 样 的 消息 , 它们 由 打开 原始 套 接 字 的 用 户 进程 处 理 。 
我 们 还 得 注意 不 同 的 实现 对 于 特定 的 消息 可 能 有 不 同 的 处 理 。 举 例 来 说 ， 尽 管 Unix 系 统 通常 在 
用 户 进程 中 处 理 路 由 器 征求 与 路 由 器 通告 ， 其 他 实现 却 有 可 能 在 内 核 中 处 理 这 些 消 息 。 

ICMPv6 为 出 错 消 息 〈 类 型 1-4) 清除 类 型 字段 的 高 序 位 ， 并 为 信息 性 消息 (类 型 128~137) 
设置 该 位 。 





UA 


n: 


虚拟 网 络 





B1 概述 


往 TCP 中 加 入 一 个 新 特性 时 ， 对 于 该 特性 的 支持 只 需 在 使 用 TCP 的 主机 上 实现 ， 路 由 器 则 
无 需 改动 。 举 例 来 说 ， 在 RFC 1323 中 定义 的 长 胖 管 道 支持 就 是 这 样 的 一 个 特性 ， 它 要 求 的 变动 
正在 缓慢 地 出 现在 TCP 的 主机 实现 中 ， 当 建立 一 个 新 的 TCP 连 接 时 ， 每 端 都 可 能 判定 对 端 是 否 
已 支持 这 个 新 特性 。 如 果 两 端 主机 都 支持 该 特性 ， 它 就 可 能 被 用 上 。 

这 一 点 不 同 于 对 于 层 所 做 的 改动 ， 壁 如 说 20 世 纪 80 年 代 末 的 多 播 和 90 年 代 中 的 IPv6， 因 为 
这 些 新 特性 要 求 所 有 主机 和 所 有 路 由 器 都 进行 改动 。 然 而 人 们 不 愿意 等 到 所 有 系统 都 升 完 级 才 
开始 使 用 这 些 新 特性 。 为 此 , 人 们 使 用 隧道 (tunnel) 在 已 有 的 IPv4 因 特 网 上 建立 虚拟 网 络 (virtual 
network). 
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我 们 使 用 隧道 构造 的 第 一 个 虚拟 网 络 例子 是 MBone， 它 起 始 于 1992 年 前 后 [Eriksson 
1994]。 如 果 一 个 LAN 上 有 2 个 或 多 个 主机 支持 多 播 ， 多 播 应 用 系统 就 可 以 运行 在 所 有 这 些 主机 
上 并 彼此 通信 。 为 了 把 这 样 的 LAN 连 接 到 另外 一 个 同样 有 主机 支持 多 播 的 LAN 上 , 这 两 个 LAN 
中 需 各 有 一 个 主机 相互 之 间 配 置 出 一 个 隧道 ， 如 图 B-I 所 示 。 我 们 在 该 图 中 用 数字 标 出 了 如 下 
的 步骤 。 

(1) 源 主机 MH1 上 的 某 个 应 用 进程 向 一 个 D 类 地 址 发 送 一 个 多 播 数据 报 。 

(2) 我 们 把 它 展示 成 一 个 UDP 数据 报 ， 因 为 大 多 数 多 播 应 用 程序 都 使 用 UDP。 我 们 已 在 第 21 
章 较 具体 地 讨论 过 多 播 以 及 如 何 发 送 和 接收 多 播 数 据 报 。 

(3) 该 数据 报 由 本 LAN 上 所 有 支持 多 播 的 主机 接收 ， 其 中 包括 MR2。 我 们 把 MR2 标 注 成 也 
用 作 多 播 路 由 器 ， 运 行 着 执行 多 播 路 由 功能 的 mrouted 程 序 。 

(4) MR2 在 该 数据 报 之 前 冠 以 另 一 个 IPv4 首 部 ,并 把 这 个 新 首部 的 目的 IPv4 地 址 设置 成 隧道 
端点 (tunnel endpoint) MR5 的 单 播 地 址 。 这 个 单 播 地 址 是 由 MR2 的 系统 管理 员 配 置 并 由 mrouted 
程序 在 启动 阶段 读 入 的 。 类 似 地 ， 在 隧道 对 端的 MR5 上 也 配置 了 MR2 的 单 播 地 址 。 新 的 IPv4 首 
部 的 协议 字段 被 设置 成 4， 代 表 IPv4 套 IPv4 (IPv4-in-IPv4) 封装 。MR2 然 后 把 该 数据 报 发 送 给 下 
一 跳 路 由 器 UR3， 它 被 明确 地 标注 成 一 个 单 播 路 由 器 。 也 就 是 说 UR3 不 理解 多 播 ， 这 正 是 我 们 
使 用 隧道 的 原因 。 新 的 IPv4 数 据 报 的 阴影 部 分 相 比 步骤 1 所 发 送 的 数据 报 除了 所 封装 IPv4 首 部 的 
TITL 字 段 递 减 外 没有 其 他 变化 。 

(5) UR3 查 找 最 外 层 IPv4 首 部 中 的 目的 IPv4 地 址 , 然后 把 该 数据 报 转发 给 下 一 跳 路 由 器 UR4， 
它 是 另外 一 个 单 播 路 由 器 。 

(6) UR4 把 该 数据 报 递送 到 它 的 目的 地 MR5， 它 是 隧道 端点 之 一 。 
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(nrouteü) 


上 T 







( . 
PN COND Giri £i (DA) 目的 IPv4 地 址 


IPv4 首 部 由 隧道 源 端 加 上 ， 由 
末端 去 除 ， 

目的 IPv4 地 址 = 隧道 末端 单 播 
地 址 ，IPv4 协 议 域 =4 (IPv4 套 
IPv4) 


} 也 用 作 多 播 路 由 器 } — 


(mrouted) 


MRS 
图 B-1 MBone 上 使 用 的 IPv4 套 IPv4 封 装 


(7) MR5 接 收 该 数据 报 ， 发 现 其 协议 字段 指明 IPv4 套 IPv4 封 装 ， 于 是 去 除 最 外 层 IPv4 首 部 ， 
然后 把 该 数据 报 的 剩余 部 分 〈 也 就 是 在 项 部 LAN 上 多 播 过 的 UDP 数据 报 的 一 个 副本 ) 作为 一 个 
多 播 数据 报 输出 到 自己 所 在 的 LAN 上 。 

(8) 底部 LAN 上 的 所 有 支持 多 播 的 主机 都 接收 到 这 个 多 播 数 据 报 。 

最 终结 果 是 在 项 部 LAN 上 发 送 的 多 播 数 据 报 被 同样 作为 多 播 数据 报 在 底部 LAN 上 传送 。 即 
使 跟 这 两 个 LAN 分 别 相连 的 那 两 个 路 由 器 以 及 它们 之 间 的 所 有 因特网 路 由 器 都 没有 多 播 能 力 ， 
该 结果 也 照样 发 生 。 

本 例 中 我 们 展 出 每 个 LAN 各 有 一 个 主机 通过 运行 mrouted 程 序 提供 多 播 路 由 功能 。 这 是 
MBone 一 开始 的 做 法 。 然 而 到 了 1996 年 左右 ， 多 播 路 由 功能 开始 出 现在 大 多 数 主要 路 由 器 厂商 
生产 的 路 由 器 中 。 要 是 图 B-1 中 的 那 两 个 单 播 路 由 路 UR3 和 UR4 具 有 多 播 能 力 ,我 们 就 根本 不 需 
要 运行 mrouted， 因 为 UR3 和 UR4 将 用 作 多 播 路 由 器 。 然 而 只 要 UR3 和 UR4 之 间 仍 然 有 无 多 播 能 
力 的 其 他 路 由 器 ， 隧 道 就 是 必需 的 。 这 时 的 隧道 端点 将 是 MR3 (UR3 的 能 多 播 蔡 代 物 ) 和 MR4 
(UR4 的 能 多 播 替 代 物 )， 而 不 是 MR2 和 MR5。 


在 图 B-1 所 示 的 情形 中 , 每 个 多 播 分 组 在 顶部 和 底部 的 LAN 上 均 出 现 两 次 : 一 次 是 作为 一 
个 多 播 分 组 ， 另 一 次 是 作为 隧道 内 的 一 个 单 播 分 组 穿行 在 运行 着 mrouted 的 主机 和 下 一 跳 单 
播 路 由 器 之 间 (例如 MR2 和 UR3 之 间 以 及 UR4 和 MR5 之 间 )、 这 个 额外 的 副本 是 隧 穿 的 代价 。 
把 图 B-1 中 的 那 两 个 单 播 路 由 器 UR3 和 UR4 替 换 成 多 播 路 由 器 ( 称 为 MR3 和 MR4 ) 的 优势 在 于 
避免 每 个 多 播 分 组 的 这 个 额外 副本 出 现在 LAN 上 。 即使 MR3 和 MR4 之 间 因 为 菜 些 中 间 路 由 器 
(图 中 未 展示 ) 没有 多 播 能 力 而 必须 建立 一 个 隧道 ， 这 种 替换 依然 优势 明显 ， 毕 竞 能够 避免 在 
每 个 LAN 上 复制 副本 。 
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MBone 如 今 已 被 原生 (native). 多 播 网 络 取代 而 几乎 不 复 存在 。 在 因特网 多 播 基础 设施 中 
仍 可 能 出 现 隧 道 , 不 过 它们 往往 存在 于 同一 个 ISP 内 部 的 多 播 路 由 器 之 间 , 对 于 最 终 用 户 是 不 可 
见 的 。 





B.3 6bone 


6bone 是 出 于 类 似 MBone 的 原因 于 1996 年 创建 的 一 个 虚拟 网 络 : 由 支持 IPv6 的 主机 构成 的 各 
个 孤岛 上 的 用 户 希 望 使 用 一 个 虚拟 网 络 连接 在 一 起 ， 而 不 必 等 到 所 有 的 中 间 路 由 器 都 变 成 支持 
IPv6. 本 书写 至 此 处 时 , 6bone 已 因 人 们 更 偏好 原生 了 Pv6 部 署 而 趋 于 淘汰 , 估计 到 2006 年 6 月 6bone 
将 停止 运作 [Fink and Hinden 2003]j。 我 们 讨论 6bone 是 因为 它 是 展示 经 配置 隧道 的 一 个 例子 。 
我 们 将 在 B.4 节 把 这 个 例子 扩展 成 包含 动态 隧道 。 图 B-2 展 示 的 例子 中 有 两 个 支持 IPv6 的 LAN 使 
用 一 个 隧道 彼此 连接 ， 而 该 隧道 穿越 的 中 间 路 由 器 只 支持 IPv4。 我 们 还 在 该 图 中 用 数字 标 出 了 
如 下 的 步骤 。 


HI HR2 
IPv6 主 机 IPv4/IPv6 也 用 作 IPv6 路 由 器 ， 
( 源 ) 主机 配置 成 的 隧道 








IPv6 帧 


原始 
IPv6 数 据 报 


IPv4 首 部 由 隧道 源 端 加 上 ， 
由 末端 去 除 ， 
目的 IPv4 地 址 = 隧道 末端 单 
播 地 址 ; IPv4 协 议 域 =41 
(JIPv4 套 IPv6) 






IPv4/IPv6 


主机 


H4 HR3 
图 B-2 ”6bone 上 使 用 的 IPv4 套 IPv6 封 装 


(1) 顶部 LAN 上 的 主机 HI1 发 送 一 个 承载 某 个 TCP 分 节 的 IPv6 数 据 报到 底部 LAN 上 的 主机 
H4。 我 们 把 这 两 个 主机 标注 成 “IPv6 主 机 ”， 不 过 它们 均 可 能 还 运行 IPv4。H1 上 的 IPv6 路 由 表 
指定 主机 HR2 为 下 一 跳 路 由 器 ， 因 此 这 个 IPv6 数 据 报 事实 上 先 被 数据 链 路 发 送 给 主机 HR2， 再 
由 它 转 发 。 

(2) 主机 HR2 有 一 个 到 达 主 机 HR3 的 经 配置 隧道 。 该 隧道 通过 在 IPv4 数 据 报 中 封装 IPv6 数 据 
报 ( 称 为 IPv4 套 IPv6 封 装 ) 使 得 IPv6 数 据 报 能 够 穿越 IPv4 因 特 网 在 两 个 隧道 端点 之 间 传 送 。IPv4 
协议 字段 的 值 为 41。 我 们 指出 隧道 两 端的 那 两 个 Pv4/IPv6 主 机 HR2 和 HR3 还 同时 扮演 IPv6 路 由 


也 用 作 IPv6 路 由 器 ， 
配置 成 的 隧道 
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器 角色 ， 因 为 它们 都 把 从 一 个 接口 接收 到 的 IPv6 数 据 报 转发 到 另 一 个 接口 。 经 配置 隧道 也 计 作 
一 个 接口 ， 不 过 它 是 一 个 虚拟 接口 而 不 是 一 个 物理 接口 。 

(3) 隧道 端点 之 一 的 HR3 接 收 这 个 经 过 封装 的 数据 报 ， 剥 掉 它 的 IPv4 首 部 后 把 剩 下 的 IPv6 数 
据 报 发 送 到 自己 所 在 的 LAN 上 。 

(4) 目的 主机 H4 接 收 到 这 个 IPv6 数 据 报 。 











在 “Connection of IPv6 Domains via IPv4 Clouds” (RFC 3056 [Carpenter and Moore 2001]) 
-文中 详 述 的 6to4 过 渡 机 制 是 在 图 B-2 所 示 虚 拟 网 络 中 动态 创建 隧道 的 一 个 方法 。 与 先前 设计 的 
动态 隧 穿 机 制 不 同 的 是 ，6to4 仅 仅 涉 及 执行 隧 穿 处 理 的 路 由 器 ， 先 前 设计 的 机 制 却 要 求 每 个 个 
体 主 机 都 有 一 个 IPv4 地 址 并 清楚 隧 穿 机 制 本 身 。6to4 使 得 配置 更 为 简单 ， 并 有 一 个 便于 实施 安 
全 策略 的 集中 位 置 。6to4 功 能 还 允许 与 在 网 络 边界 常见 的 NAT/ 防 火 墙 功能 〈 例 如 处 于 某 个 DSL 
或 线 缆 调 制 解 调 器 连接 的 用 户 端的 一 个 小 型 NAT/ 防 火 墙 设备 ) 并 置 。 

6to4 地 址 格式 如 图 B-3 所 示 ， 处 于 2002716 范 围 之 内 。16 位 格式 前 缘 0x2002 之 后 跟 以 32 位 
IPv4 地 址 ， 两 者 共同 构成 公 网 拓扑 DD， 剩 下 16 位 子 网 ID 和 64 位 接口 DD。 举 例 来 说 ， 与 我 们 的 主 
机 freebsa《〈 其 IPv4 地 址 为 12.106.32.254) 对 应 的 6to4 前 缀 是 2002:c6a:20fey/48。 


16 位 32 位 16 位 64 位 
公 网 拓扑 拓扑 接口 标识 
图 B-3 ”6to4 地 址 


6to4 相 比 6bone 的 优势 体现 在 构成 6to4 基 础 设施 的 隧道 是 自动 建立 的 ,不 需要 预先 进行 配置 。 
使 用 6to4 的 网 点 使 用 一 个 众所周知 的 IPv4 任 播 地 址 (RFC 3068 [Huitema 2001]) 192.88.99.1 
配置 一 个 默认 路 由 器 ， 它 对 应 于 IPv6 地 址 2002:c058:6301::。 愿 意 扮演 6to4 网 关 角 色 的 原生 
(native) IPv6 基 础 设施 上 的 路 由 器 必须 通告 一 个 去 往 2002/16 的 路 径 , 然后 把 接收 到 的 IPv6 数 据 
报 封装 在 IPv4 数 据 报 中 转发 出 去 ， 所 用 IPv4 目 的 地 址 取 自 骨 在 6to4 地 址 中 的 IPv4 地 址 。 这 些 路 由 
器 既 可 以 局 部 于 一 个 网 点 或 一 个 区 域 ， 也 可 以 是 全 球 的 ， 具 体 取决 于 它们 的 路 径 通 告 范 围 。 

这 些 虚 拟 网 络 的 最 终 目 标 是 随 着 时 间 的 推移 , 当中 间 环 节 的 路 由 器 逐渐 获得 所 需 的 功能 (就 
MBone 而 言 是 多 播 路 由 ， 就 6bone 和 其 他 过 渡 机 制 而 言 是 IPv6 路 由 ) 之 后 ， 它 们 将 消失 。 
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调试 技术 


本 附录 包含 调试 网 络 应 用 程序 的 一 些 建 议和 技巧 。 没 有 单个 技巧 能 够 答复 所 有 疑问 ， 而 是 
介绍 了 我 们 应 熟悉 各 种 各 样 的 工具 ， 然 后 在 我 们 的 环境 中 使 用 起 作用 的 任何 工具 。 


C.1 系统 调用 跟踪 


许多 版 本 的 Unix 提 供 一 个 系统 调用 跟踪 机 制 。 它 道 常 可 以 作为 一 个 有 价值 的 调试 技巧 。 

在 这 个 级 别 上 调试 程序 时 ， 我 们 需要 区 分 系统 调用 和 函数 。 前 者 是 进入 内 核 的 入 口 点 ， 本 
节 介 绍 的 工具 所 能 跟踪 的 正 是 它们 。POSIX 和 其 他 大 多 数 标准 使 用 函数 一 词 来 描述 在 用 户 看 来 
是 函数 的 东西 ， 即 便 它们 在 某 些 实现 上 可 能 是 系统 调用 。 举 例 来 说 ， 在 源 自 Berkeley 的 内 核 上 
socket 是 一 个 系统 调用 ， 不 过 它 在 应 用 程序 开发 人 员 看 来 只 是 一 个 普通 的 C 函 数 。 然 而 在 SVR4 
上 socket 却 只 是 套 接 字 函 数 库 中 的 一 个 库 函 数 ， 由 它 调用 putmsg 和 getmsg， 后 两 者 才 是 真正 
的 系统 调用 。 

我 们 在 本 节 查 看 运行 时 间 获 取 客 户 程序 过 程 中 涉及 的 系统 调用 。 我们 在 图 1-5 中 给 出 了 该 程 
序 的 套 接 字 版 本 。 


C.1.4 BSD 内 核 套 接 字 


我 们 的 下 一 个 例子 是 源 自 Berkeley 的 内 核 之 一 FreeBSD， 它 的 所 有 套 接 字 函 数 都 是 系统 调 
用 。FreeBSD 用 于 运行 一 个 程序 并 跟踪 所 执行 之 系统 调用 的 程序 是 ktrace。 它 把 跟踪 信息 写 到 
一 个 可 使 用 kadump 程 序 显示 的 文件 (其 默认 名 字 为 ktrace.out)。 我 们 如 下 执行 套 接 字 版 本 的 时 
间 获 取 客户 程序 : 


freebsd $ ktrace daytimetcpcli 192.168.42.2 
Tue Aug 19 23:35:10 2003 


然后 执行 kaump 把 跟踪 信息 倾泻 到 标准 输出 。 


3211 daytimetcpcli CALL socket (0x2, 0x1, 0) 
3211 daytimetcpcli RET socket 3 


MD ume em aam 





3211 daytimetcpcli CALL connect (0x3, Ox7fdffffe820, Ox10) 
3211 daytimetcpcli RET connect 0 


3211 daytimetcpcli CALL read(0x3, Ox7fdffffe830, 0x1000) 
3211 daytimetcpcli GIO fd 3 read 26 bytes 
"Tue Aug 19 23:35:10 2003\r\n 


3211 daytimetcpcli RET read 26/0xla 
3211 daytimetcpcli CALL write(0x1, 0x204000, Oxla) 


3211 daytimetcpcli GIO fd 1 wrote 26 bytes 
"Tue Aug 19 23:35:10 2003\r\n 
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3211 daytimetcpcli RET write 26/0xla 

3211 daytimetcpcli CALL read(0x3, Ox7fdffffe830, 0x1000) 
3211 daytimetcpcli GIO fd 3 read 0 bytes 

3211 daytimetcpcli RET read 0 


3211 daytimetcpcli CALL exit(0) 
其 中 3211 是 进程 ID。cALL 标 明 系统 调用 , RET 表 示 返 回 值 ,GTo 代 表 普 通 进 程 UO。 我 们 看 到 socket 
调用 和 connect 调 用 之 后 是 返回 26 个 字 节 的 reaG 调 用 。 客 户 进程 把 这 些 字 节 写 到 标准 输出 ， 下 
一 个 read 调 用 返回 0 (BOF). 


C.1.2 Solaris9 内 核 套 接 字 


Solaris 2.x 基 于 SVR4，2.6 以 前 的 所 有 版 本 如 图 31-3 所 示 实 现 套 接 字 。 以 这 种 式样 实现 套 接 
字 的 所 有 SVR4 系 统 存 在 的 一 个 问题 是 难以 100% 地 兼容 源 自 Berkeley 的 内 核 套 接 字 。 为 了 提供 额 
外 的 兼容 性 ，Solaris 2.6 及 以 后 的 版 本 更 改 了 实现 手段 ， 改 用 sockfs 文 件 系统 实现 套 接 字 。 这 样 
就 提供 了 内 核 套 接 字 ， 我 们 可 以 使 用 truss 在 我 们 的 套 接 字 客户 上 进行 验证 。 


solaris $ truss -v connect daytimetcpcli 127.0.0.1 
Mon Sep 8 12:16:42 2003 


经 过 通常 的 函数 库 动态 链接 之 后 ， 我 们 看 到 的 第 一 个 系统 调用 是 so_socket， 它 是 由 我 们 


的 socket 调 用 引发 的 系统 调用 。 它 的 前 3 个 参数 就 是 我 们 调用 socket 的 3 个 参数 。 
so_socket (PF_INET, SOCK STREAM, IPPROTO IP, "", 1) = 3 
connect (3, OxFFBFDEFO, 16, 1) = 0 
AF_INET name = 127.0.0.1 port = 13 
read(3, "Mon Sep 8 1*.., 4096) = 26 
Mon Sep 8 12:48:06 2003 
write(1, "Mon Sep 8 1l".., 26) - 26 
read(3, OxFFBFDF03, 4096) = 0 
exit (0) 


我 们 接 下 来 看 到 的 系统 调用 是 connect， 当 以 -v connect 标 志 执 行 Lruss 时 ， 它 还 显示 由 
第 二 个 参数 指向 的 套 接 字 地 址 结构 的 内 容 (IP 地 址 和 端口 号 )。 我 们 用 省 略 号 省 掉 的 只 是 一 些 处 
理 标 准 输 入 和 标准 输出 的 系统 调用 。 


C.2 ”标准 因特网 服务 





我 们 应 该 已 经 熟悉 图 2-18 中 说 明 的 标准 因特网 服务 了 。 我 们 已 经 多 次 为 测试 所 编写 的 客户 
程序 使 用 了 aytime 服 务 。discard 服 务 是 我 们 向 它 发 送 数 据 的 方便 端口 。echo 服 务 类 似 于 贯穿 
本 书 使 用 的 回 射 服 务 器 。 


许多 网 点 现在 禁止 穿越 防火 墙 访问 这 些 服务 ， 因 为 从 1996 年 起 出 现 的 一 些 拒 绝 服 务 型 攻 
击 利 用 了 这 些 服 务 ( 习题 13.3 ) 。 尽管 如 此 ,你 在 自己 的 网 络 内 部 还 是 有 和 希望 使 用 这 些 服务 的 。 


C.3 sock 程序 





Stevens 先 生 编 写 的 sock 程 序 最 早出 现在 TCPv1 中 ， 在 那里 它 经 常用 于 产生 特殊 的 个 案 条 
件 ， 其 中 大 多 数 在 随后 的 正文 中 使 用 tcpdump 予 以 探查 。sock 程 序 的 便利 之 处 在 于 能 够 产生 如 
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此 之 多 的 不 同情 形 ， 从 而 免除 我 们 被 迫 编 写 特殊 测试 程序 之 苦 。 

我 们 不 在 正文 中 给 出 这 个 程序 的 源 代码 (超过 2000 行 的 C 代 码 ), 不 过 是 可 以 公开 获取 的 ( 参 
见 前 言 )。 

该 程序 运作 在 以 下 外 个 模式 之 一 ， 而 且 每 个 模式 既 可 以 使 用 TCP， 也 可 以 使 用 UDP。 

e 标准 输入 ， 标 准 输 出 客户 (图 C-1)。 


sock 


(客户 ) 
标准 输入 一 一 各 | | TCP 和 连接 或 UDP 数 据 报 
| 服务 器 
a s 
图 C-1 。 sock 客户 ， 标 准 输入 ， 标 准 输 出 


在 这 个 客户 模式 中 ， 从 标准 输入 读 入 的 任何 东西 都 写 出 到 网 络 ， 而 从 网 络 接收 的 任何 东 
西 都 写 出 到 标准 输出 。 服 务 器 的 IP 地 址 和 端口 必须 指定 ， 如 果 是 TCP 情 形 ， 该 程序 就 提 
前 执行 一 次 主动 打开 操作 。 

e 标准 输入 ， 标 准 输出 服务 器 。 这 个 模式 类 似 上 一 个 模式 ， 差 别 只 是 在 服务 器 模式 下 该 程 
序 捆绑 一 个 众所周知 的 端口 到 它 的 套 接 字 ， 并 且 如 果 是 TCP 情 形 ， 那 就 提前 执行 一 次 被 
动 打 开 操 作 。 

e 源 客户 (图 C-2)。 


sock 


CRZP) 


TCP 连 接 或 UDP 报 
= z 


图 C-2 ”作为 源 客户 的 sock 程 序 


该 程序 以 某 个 指定 的 大 小 向 网 络 执行 某 个 固定 数目 的 写 操作 。 
e HARB (AIC-3). 


sock 


( 漏 槽 服务 器 ) 


TCP 连 接 或 UDP 报 
a T j 


图 C-3 PE AHR AS SSH sock FEF 


该 程序 从 网 络 执行 固定 数目 的 读 操作 。 
这 4 种 运作 模式 与 以 下 4 个 命令 相对 应 : 
Sock [options] hostname service 
sock [options] ~s [hostname] service 
sock [options] -i hostname service 
sock [options] -is [hostname] service 


其 中 hostmame 是 一 个 主机 名 或 1P 地 址 ，service 是 一 个 服务 名 或 端口 号 。 除 非 在 使 用 那 两 个 服务 器 
模式 时 指定 了 可 选 的 hostmame， 否 则 捆绑 的 是 通 配 地 址 。 

sock 程 序 约 有 40 个 命令 行 选项 可 以 指定 ， 它 们 开启 该 程序 的 可 选 特性 。 我 们 不 详细 说 明 这 
些 选项 , 不 过 第 7 章 中 讲解 的 套 接 字 选 项 差不多 都 能 够 设置 。 不 给 出 任何 参数 执行 本 程序 显示 如 
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下 的 选项 汇总 输出 。 


-bn bind n as client's local port number 


-c convert newline to CR/LF & vice versa 

-f a.b.c.d.p foreign IP address = a.b.c.d, foreign port# = p 
-g a.b.c.d loose source route 

-h issue TCP half-close on standard input EOF 

-i "source" data to socket, "sink" data from socket (w/-s) 
-j a.b.c.d join multicast group 

-k write or writev in chunks 


-l a.b.c.d.p client's local IP address = a.b.c.d, local port# = p 
-n n #buffers to write for "source" client (default 1024) 

-0 do NOT connect UDP client 

-p n #ms to pause before each read or write (source/sink) 

-q n size of listen queue for TCP server (default 5) 

-r n Kbytes per read() for "sink" server (default 1024) 


-8 operate as server instead of client : 
-tn set multicast trl 

-u use UDP instead of TCP 

-v verbose 


-wn #bytes per write() for "source" client (default 1024) 
-x n #ms for SO_RCVTIMEO (receive timeout) 
-y n #ms for SO SNDTIMEO (send timeout) 


-A SO, REUSEADDR option 

-B SO BROADCAST option 

-C set terminal to cbreak mode 

-D SO_DEBUG option 

-E IP_RECVDSTADDR option 

-F fork after connection accepted (TCP concurrent server) 


-G a.b.c. strict source route 
-Hn IP TOS option (16-min del, 8=max thru, 4=max rel, 2-min cost) 


-1 SIGIO signal 

-J n IP. TTL option 

-K SO KEEPALIVE option 

-Ln SO LINGER option, n - linger time 

-N TCP NODELAY option 

-On ims to pause after listen, but before first accept 
-Pn #ms to pause before first read or write (source/sink) 
-Qn #ms to pause after receiving FIN, but before close 
-Rn SO RCVBUF option 

-Sn SO SNDBUF option 

-T SO REUSEPORT option 

-Un enter urgent mode before write number n (source only) 
-V use writev() instead of write(); enables -k too 

-W ignore write errors for sink client 

-X n TCP MAXSEG option (set MSS) 

-Y SO DONTROUTE option 

-2 MSG_PEEK 


wa 


C 


———————————————————M RE EP d 











作者 〈Stevens 先 生 ) 在 撰写 本 书 期 间 一 直 使 用 的 另 一 个 有 用 的 调试 技巧 就 是 编写 小 测试 程 
序 以 检查 某 个 给 定 的 特性 在 精心 构造 的 测试 个 案 中 如 何 工 作 。 有 一 组 库 函 数 的 包 吉 函数 和 一 些 
简单 的 错误 处 理 函 数 〈 就 如 贯穿 本 书 使 用 的 那些 ) 有 助 于 编写 这 些小 测试 程序 。 这 些 函数 缩减 
了 我 们 被 迫 编写 的 代码 量 ， 不 过 仍然 提供 所 需 的 错误 测试 能 力 。 


oo 


712 MRC 调试 技术 





C. 5 tcpdump 程序 m 


像 tcpdump 这 样 的 工具 在 网 络 编程 中 的 价值 是 难以 衡量 的 。 该 程序 一 边 从 网 络 读 入 分 组 一 
边 显示 关于 这 些 分 组 的 大 量 信息 。 它 还 能 够 只 显示 与 所 指定 的 准则 匹配 的 那些 分 组 。 例 如 : 

% tcpdump '(udp and port daytime) or icmp' 
只 显示 源 端口 或 目的 端口 为 13 Cdaytimellt 2s). 的 UDP 数据 报 亦 或 TCMP 分 组 。 再 如 : 

% tcpdump ‘tcp and port B0 and tcp[13:1] & 2 !=0' 
只 显示 源 端 口 或 目的 端口 为 80 (HTTP 服 务 ) 且 设 置 了 SYN 标 志 的 TCP 分 节 。SYN 标 志 在 从 TCP 
首部 开始 处 起 字 节 偏 移 量 为 13 的 那个 字 节 中 的 值 为 2。 又 如 : 

% tcpdump ‘tcp and tcp[0:2] > 7000 and tcp[0:2] <= 7005' 
只 显示 源 端口 在 7001 和 7005 之 间 的 TCP 分 节 。 源 端口 在 TCP 首 部 中 从 字 节 偏 移 量 为 0 开始 占据 2 
个 字 节 。 

TCPv1 的 附录 A 详细 讲述 了 这 个 程序 的 具体 运作 。 


该 程序 可 从 http://www.tcpdump.org/ 获 取 ， 能 够 工作 在 许多 不 同 版 本 的 Unix 上 。 它 最 初 是 
由 LBL 的 Van Jacobson. Craig LeresfeSteven McCanne 编 写 的 ， 现 在 由 tcpdump.org 的 一 支队 
伍 维护 。 

有 些 厂家 自己 提供 具有 类 似 功能 的 程序 ， 例 如 Solaris 2.x 提 供 snoop 程 序 。tcpdump 的 优 
势 在 于 它 在 许多 版 本 的 Unix 上 都 能 工作 ， 而 在 异 构 环 境 中 使 用 单个 工具 而 不 是 为 每 个 环境 分 
别 使 用 一 个 工具 这 一 点 本 身 就 是 一 个 大 优点 。 





C.6 netstat 程序 Žž 





我 们 已 经 贯穿 全 书 多 次 使 用 netstat 程 序 。 该 程序 服务 于 多 个 目的 。 
e 展示 网 络 端点 的 状态 。 我 们 在 5.6 节 启动 TCP 回 射 客户 和 服务 器 程序 之 后 如 此 追踪 两 个 端 
点 的 状态 。 
e 展示 某 个 主机 上 各 个 接口 所 属 的 多 播 组 -ia 标志 是 展露 多 播 组 的 通常 方式 , 在 Solaris 2.x 
上 则 使 用 -g 标 志 。 
e 使 用 -s 选 项 显示 各 个 协议 的 统计 信息 。 我 们 在 8.13 节 查看 UDP 缺乏 流量 控制 能 力 时 给 出 
了 这 样 的 例子 。 
e. 使 用 -r 选 项 显示 路 由 表 或 使 用 -i 选项 显示 接口 信息 。 PRAT EL OE netstat RMR) 
的 网 络 拓扑 时 给 出 了 这 样 的 例子 。 
netstat 还 有 其 他 的 用 途 ， 大 多 数 厂 家 又 自行 添加 了 一 些 特 性 ， 具 体 参 见 自己 系统 上 的 手 
册页 面 。 
C.7 lsof 程序 
名 字 1sof 代 表 “ 列 出 打开 的 文件 (listopen files)”。 与 tcpdump 一 样 ，1sof 也 是 一 个 公开 可 
得 的 方便 调试 的 工具 ， 并 已 被 移植 到 许多 版 本 的 Unix 中 。 
lsof 的 常见 用 途 之 一 是 找 出 哪个 进程 在 指定 的 中 地 址 或 端口 上 打开 了 一 个 套 接 字 。 
netstat 告 诉 我 们 哪些 下 地 址 和 端口 正在 使 用 中 以 及 各 个 TCP 连 接 的 状态 , 却 没 有 标识 相应 的 进 
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Fé. lsof 弥 补 了 这 个 缺陷 。 举 例 来 说 ,为 找 出 哪些 进程 在 提供 daytime 服 务 , 我 们 执行 如 下 命令 : 


freebsd $ lsof -i TCP:daytime 

COMMAND PID USER FD TYPE 
inetd 561 root 5u 
inetd 561 root  7u 


DEVICE SIZE/OFF NODE NAME 
IPv4 Oxfffff8003027a260 OtO TCP *:daytime (LISTEN) 
IPv6 Oxfffff800302b6720 OtO TCP *:daytime 


lsof 告 诉 我 们 命令 (本 服务 由 ineta 服 务 器 提供 )、 它 的 进程 DD、 属 主 、 描 述 符 (IPv4 为 5， 
IPv6 为 7，u 表 示 打 开 目 的 是 读 与 写 )、 套 接 字 类 型 、 协 议 控制 块 地 址 、 文 件 的 大 小 或 偏 移 〈 对 于 
套 接 字 没 有 意义 )、 协 议 类 型 及 名 称 。” 

该 程序 的 常见 用 途 之 一 是 : 如 果 在 启动 一 个 捆绑 其 众所周知 端口 的 服务 器 时 得 到 该 地 址 已 
在 使 用 的 出 错 消 息 ， 那 么 我 们 可 以 使 用 1sof 找 出 正在 使 用 该 端口 的 进程 。 


由 于 1sof 只 报告 打开 着 的 文件 ， 因 此 无 法 报告 不 跟 某 个 打开 着 的 文件 关联 的 网 络 端点 : 处 
于 TIME_WAIT 状 态 的 TCP 端 点 。 


1sof 程 序 可 从 ftp://lsof.itap.purdue.edu/pub/tools/unix/lsof/ 获 取 。 它 是 由 Vic Abell 编 写 的 。 


有 些 厂家 提供 自己 的 类 似 工 具 ， 例 如 FreeBSD 提 供 fstat 程 序 。1sof 的 优势 跟 tcpdump 一 
样 ， 仍 然 在 于 它 在 许多 版 本 的 Unix 上 都 能 工作 。 


中 作者 在 正文 中 说 文件 的 大 小 或 偏 移 对 于 套 接 字 没 有 意义 ， 然 而 这 个 程序 (lsof) 的 作者 却 认为 套 接 字 的 偏 移 可 能 
会 很 有 用 。 大 多 数 Unix 系 统 上 偏 移 来 自 file 结 构 的 f_offset 成 员 。 该 结构 成 员 在 每 次 输入 或 输出 文件 中 字 节 时 都 会 
增长 。 因 此 偏 移 量 的 变化 对 套 接 字 来 说 意味 着 数据 的 传送 在 进行 中 。 


oo 
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杂凑 的 源 代码 


D.1 unp.h 头 文件 


本 书 正文 中 几乎 每 个 程序 都 包含 如 图 D-1 所 示 的 unp .hb 头 文件 。 该 头 文件 包含 大 多 数 网 络 程 
序 都 需要 的 所 有 标准 系统 头 文件 以 及 一 些 普 通 的 系统 头 文件 。 它 还 定义 了 诸如 MAXLINE 等 常 值 ， 
并 定义 了 我 们 在 正文 中 定义 过 的 函数 〔 例 如 readline) 以 及 所 用 到 的 所 有 包 囊 函数 的 ANSI C 
函数 原型 。 我 们 没有 给 出 这 些 原型 。 








lib/unp.h 
1 /* Our own header. Tabs are set for 4 spaces, not 8 */ 
2 #ifnmdef | unp h 
3 #define | unp h 
4 &include "sa(Gonfig.h* /* configuration options for current OS */ 
5 /* *../config.h" is generated by configure */ 
6 /* If anything changes in the following list of #includes, must change 
7 acsite.m4 also, for configure's tests. */ 
8 #include <sys/types.h> /* basic system data types */ 
9 #include <sys/socket .h> /* basic socket definitions */ 
10 #include <sys/time.h> /* timeval{} for select() */ 
11 #include «time.h» /* timespec{} for pselect() */ 
12 #include «netinet/in.h» /* sockaddr in() and other Internet defns */ 
13 #include «arpa/inet.h» /* inet(3) functions */ 
14 #include «errno.h» 
15 #include «fcntl.h» /* for nonblocking */ 


16 #include «netdb.h» 
17 #include «signal.h» 
18 #include «stdio.h» 
19 #include «stdlib.h» 
20 #include «string.h» 


21 #include «sys/stat.h» /* for S xxx file mode constants */ 
22 #include «sys/uio.h» /* for iovec() and readv/writev */ 
23 #include «unistd.h» 

24 #include «sys/wait.h» 

25 #include «sys/un.h» /* for Unix domain sockets */ 


26 #ifdef HAVE SYS SELECT H 
27 # include «sys/select.h» /* for convenience */ 
28 fendif 


29 #ifdef HAVE SYS SYSCTL H 
30 # include «sys/sysctl.h» 
31 #endif 


32 #ifdef HAVE POLL H 





图 D-1 ”我们 的 unp .h 头 文件 
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# include <poll.h> /* for convenience */ 
#endif 
#ifdef HAVE SYS EVENT H 


# include «sys/event.h» 


#endif 


#ifdef HAVE_STRINGS_H 


# include <strings.h> 


#endif 


/* 


/* 


for kqueue */ 


for convenience */ 


/* Three headers are normally needed for socket/file ioctl's: 
* «sys/ioctl.h», «sys/filio.h», and «sys/sockio.h». 


*/ 


#ifdef HAVE SYS IOCTL H 


# includ 
#endif 
fifdef 


e «sys/ioctl.h» 


HAVE SYS FILIO. H 


# include «sys/filio.h» 


#endif 


#ifdef HAVE_SYS_SOCKIO_H 


# includ 
#endif 


e <sys/sockio.h> 


#ifdef HAVE PTHREAD H 
* include <pthread.h> 


*endif 


#ifdef HAVE NET IF DL H 


# includ 
#endif 


e «net/if dl.h» 


#ifdef HAVE NETINET SCTP.H 


#include 
#fendif 


<netinet/sctp.h> 


/* OSF/1 actually disables recv() and send() in «sys/socket.h» */ 


#ifdef 
#undef 
#undef 


#define 
#define 
#endif 


#ifndef 
#define 
#endif 


#ifndef 
#define 
#define 
#define 
#endif 


#ifndef 
#define 


#endif 


osf__ 
recv 
send 


recv(a,b,c,d) 


recvfrom(a,b,c,d,0,0) 


send(a,b,c,d) sendto(a,b,c,d,0,0) 


INADDR NONE 
INADDR NONE Oxffffffff 


SHUT RD 
SHUT. RD 0 
SHUT WR 1 


SHUT RDWR 2 


INET ADDRSTRLEN 
INET ADDRSTRLEN 16 


/* 


/* 
/* 
/* 
/* 


/* 


/* Define following even if IPv6 not 


图 D-1 


should have been in «netinet/in.h» */ 


these three POSIX names are new */ 
shutdown for reading */ 

shutdown for writing */ 

shutdown for reading and writing */ 


"ddd.ddd.ddd.ddd\0" 
1234567890123456 */ 


supported, so we can always allocate 
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82 an adequately sized buffer without #ifdefs in the code. */ 
83 #ifndef INET6 ADDRSTRLEN 
B4 #define INET6 ADDRSTRLEN 46 /* max size of IPv6 address string: 
85 "XXXX:2000C(: XXXX : XXXX : XXXX :XXXX : XXXX : XXXX" OF 
86 "XXXX : XXXX : XXXX : XXXX : XXXX : XXXX : ddd. ddd . ddd . ddd\ 0" 
87 1234567890123456789012345678901234567890123456 */ 
88 #endif 
89 /* Define bzero() as a macro if it's not in standard C library. */ 
90 #ifndef HAVE BZERO 
91 #Gefine bzero(ptr,n) memset(ptr, 0, n) 
92 #endif 
93 /* Older resolvers do not have gethostbyname2() */ 
94 #ifndef HAVE GETHOSTBYNAME2 
95 #definegethostbyname2 (host, family) gethostbyname ( (host) ) 
96 #endif 
97 /* The structure returned by recvfrom flags() */ 
98 struct unp in pktinfo ( 
99 struct in_addr ipi addr; /* Gst IPv4 address */ 
100 int ipi ifindex; /* received interface index */ 
101 ); 
102 /* we need the newer CMSG LEN() and CMSG SPACE() macros, but few 
103 implementations support them today. These two macros really need 
104 an ALIGN() macro, but each implementation does this differently. */ 
105 #ifndef CMSG LEN 
106 #define CMSG LEN(size) (sizeof(struct cmsghdr) + (size)) 
107 #endif 
108 #ifndef CMSG SPACE 
109 #define CMSG SPACE (size) (sizeof(struct cmsghdr) « (size)) 
110 #endif 
111 /* POSIX requires the SUN LEN() macro, but not all implementations define 
112 it (yet). Note that this 4.4BSD macro works regardless whether there is 
113 a length field or not. */ 
114 #ifndef SUN LEN 
115 # define SUN_LEN(su) \ 
116 {sizeof (*(su)) - sizeof((su)->sun_path) + strlen((su)->sun_path) ) 
117 #endif 
118 /* POSIX renames "Unix domain" as "local IPC." 
119 Not all systems DefinE AF LOCAL and PF LOCAL (yet). */ 
120 #ifndef AF LOCAL 
121 #define AF LOCAL AF UNIX 
122 #endif 
123 #ifndef PF. LOCAL 
124 #define PF LOCAL PF. UNIX 
125 #endif 
126 /* POSIX requires that an #include of «poll.h» define INFTIM, but many 
127 systems still define it in «sys/stropts.h». We don't want to include 
128 all the STREAMS stuff if it's not needed, so we just define INFTIM here. 
129 This is the standard value, but there's no guarantee it is -1. */ 
130 #ifndef INFTIM 
131 #define INFTIM (-1) /* infinite poll timeout */ 
132 #ifdef HAVE POLL H 
133 #define INFTIM UNPH /* tell unpxti.h we defined it */ 
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#endif 
#endif 


/* Following could be derived from SOMAXCONN in <sys/socket.h>, but many 
kernels still #define it as 5, while actually supporting many more */ 


#define LISTENO 1024 /* 2nd argument to listen() */ 

/* Miscellaneous constants */ 

#define MAXLINE 4096 /* max text line length */ 

#define BUFFSIZE 8192 /* puffer size for reads and writes */ 
/* Define some port number that can be used for our examples */ 
#define SERV_PORT 9877 /* TCP and UDP */ 

#define SERV PORT STR "9877" /* TCP and UDP */ 

#define UNIXSTR PATH "/tmp/unix.str" /* Unix domain stream */ 
#define UNIXDG PATH "/tmp/unix.dg" /* Unix domain datagram */ 


/* Following shortens all the typecasts of pointer arguments: */ 
#define SA struct sockaddr 


#Gefine HAVE STRUCT, SOCKADDR STORAGE 

#ifndef HAVE STRUCT SOCKADDR STORAGE 

/* 
* RFC 3493: protocol-independent placeholder for socket addresses 
*/ 

#define _SS_MAXSIZE 128 

#define __SS_ALIGNSIZE (sizeof (int64_t)) 

#ifdef HAVE_SOCKADDR_SA_LEN 

#define _ SS PADISIZE (__SS_ALIGNSIZE - sizeof(u char) - sizeof(sa family t)) 

Kelse 

&define | SS PADISIZE ( SS ALIGNSIZE - sizeof(sa family t)) 

fendif 

#define | SS PAD2SIZE (__SS_MAXSIZE - 2* . SS ALIGNSIZE) 


struct sockaddr storage { 
#ifdef HAVE SOCKADDR, SA LEN 


u_char ss_len; 

#tendif 

sa_family_tss_family; 

char ..Ss,padl[ SS PADIiSIZE]; 

int64 t _ ss align; 

char __ss_pad2 [__SS_PAD2SIZE] ; 
‘i 
fendif 


#define FILE MODE (S IRUSR | S IWUSR ! S_IRGRP | S IROTH) 

/* default file access permissions for new files */ 
$define DIR MODE (FILE MODE | S IXUSR | S IXGRP | S IXOTH) 

/* default permissions for new directories */ 


typedef void Sigfunc(int); /* for signal handlers */ 


#define min(a,b) ((a) < (b) ? (a) : (b)) 
define max(a,b) ((a) » (b) ? (a) : (b)) 


#ifndef HAVE_ADDRINFO_STRUCT 
# include  "../lib/addrinfo.h" 
#fendif 


#ifndef HAVE_IF_NAMEINDEX_STRUCT 
struct if_nameindex { 
unsigned int if index;  /* 1, 2, ... */ 


图 D-1 (£) 
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185 char *if name; /* null-terminated name: "le0", ... */ 
186 ); 
187 #endif 


188 #ifndef HAVE TIMESPEC STRUCT 
189 struct timespec ( 








190 time t tv. sec; /* seconds */ 
191 long tv nsec; /* and nanoseconds */ 
192 ); 
193 #endif 
lib/unp.h 
图 D-1 GE) 
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D.2 config.h 头 文件 


本 书 使 用 GNU autoconf 工 具 辅 助 保障 所 有 源 代码 的 可 移植 性 ， 它 可 以 从 http://ftp.gnu. 
org/gnu/autoconf 获 取 。 这 个 工具 生成 一 个 名 为 configure 的 shell 肢 本， 你 把 软件 下 载 到 本 地 系 
统 之 后 必须 运行 它 。 该 脚本 确定 你 的 Unix 系 统 提供 哪些 特性 :， 套 接 字 地 址 结构 有 长 度 字段 吗 ? 
支持 多 播 吗 ? 支持 数据 链 路 套 接 字 地 址 结构 吗 ? 等 等 ， 生 成 一 个 名 为 config.h 的 头 文件 。 它 是 
上 一 节 介 绍 的 unp.h 文 件 包含 的 第 一 个 头 文件 。 图 D-2 给 出 了 FreeBSD 5.1 上 生成 的 这 个 
config.h 头 文件 。 

其 中 从 第 一 列 开始 以 #aefine 打 头 的 行 表示 该 系统 提供 的 特性 。 注 释 掉 并 含有 #undaef 的 行 
代表 该 系统 没有 提供 的 特性 。 

sparc64-unknown-freebsd5. l/config.h 


/* config.h. Generated automatically by configure.  */ 
/* config.h.in. Generated automatically from configure.in by autoheader.  */ 


/* CPU, vendor, and operating system */ 
#define CPU VENDOR OS "sparc64-unknown-freebsd5.l" 


/* Define if «netdb.h» defines struct addrinfo */ 
$define HAVE ADDRINFO STRUCT 1 


/* Define if you have the «arpa/inet.h» header file. */ 
#define HAVE ARPA INET H 1 


o - aw ds w Nr 


/* Define if you have the bzero function. */ 
#define HAVE_BZERO 1 


P 
ow 


/* Define if the /dev/streams/xtiso/tcp device exists */ 
/* #undef HAVE_DEV_STREAMS_XTISO_TCP */ 


wr 
NF 


m 
w 


/* Define if the /dev/tcp device exists */ 
/* *undef HAVE DEV TCP */ 


m 
D 


/* Define if the /dev/xti/tcp device exists */ 
/* #undef HAVE DEV XTI TCP */ 


rH 
aw 


/* Define if you have the <errno.h> header file. */ 
#define HAVE_ERRNO_H 1 


ere 
œx 


/* Define if you have the «fcntl.n» header file. */ 
#define HAVE FCNTL H 1 


Ne 
cow 


/* Define if you have the getaddrinfo function. */ 
#define HAVE GETADDRINFO 1 


NN 
Nr 
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/* define if getaddrinfo prototype is in «netdb.h» */ 
#define HAVE GETADDRINFO PROTO 1 


/* Define if you have the gethostbyname2 function. */ 
#define HAVE GETHOSTBYNAME2 1 


/* Define if you have the gethostbyname r function. */ 
/* #undef HAVE GFTHOSTBYNAME R */ 


/* Define if you have the gethostname function. */ 
#define HAVE GETHOSTNAME 1 


/* define if gethostname prototype is in <unistd.h> */ 
#define HAVE, GETHOSTNAME PROTO 1 


/* De£ine if you have the getnameinfo function. */ 
Kdefine HAVE GETNAMEINFO 1 


/* define if getnameinfo prototype is in «netdb.h» */ 
4Gefine HAVE GETNAMEINFO PROTO 1 


/* define if getrusage prototype is in «sys/resource.h» */ 
#define HAVE GETRUSAGE PROTO 1 


/* Define if you have the hstrerror function. */ 
#define HAVE HSTRERROR 1 


/* define if hstrerror prototype is in «netdb.h» */ 
#define HAVE EHSTRERROR, PROTO 1 


/* Define if «net/if.h» defines struct if nameindex */ 
$define HAVE IF NAMEINDEX STRUCT 1 


/* Define if you have the if nametoindex function. */ 
#define HAVE IF NAMETOINDEX 1 


/* define if if nametoindex prototype is in «net/if.h» */ 
#define EAVE IF NAMETOINDEX PROTO 1 


/* Define if you have the inet, aton function. */ 
#define HAVE INET | ATON 1 


/* define if inet aton prototype is in «arpa/inet.h» */ 
#define HAVE INET, ATON PROTO 1 


/* Define if you have the inet pton function. */ 
#define HAVE INET PTON 1 


/* define if inet, pton prototype is in «arpa/inet.h» */ 
#define HAVE INET PTON PROTO 1 


/* Define if you have the kevent function. */ 
$define HAVE KEVENT 1 


/* Define if you have the kqueue function. */ 
#define HAVE KQUEUE 1 


/* Define if you have the nsl library (-1nsl). */ 
/* #undef HAVE LIBNSL */ 


/* Define if you have the pthread library (-lpthread). */ 
/* #undef HAVE LIBPTHREAD */ 


/* Define if you have the pthreads library (-lpthreads). */ 
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66 /* #undef HAVE LIBPTHREADS */ 
67 /* Define if you have the resolv library (-lresolv). */ 
68 /* #undef HAVE_LIBRESOLV */ 
69 /* Define if you have the xti library (-lxti). */ 
70 /* #undef HAVE_LIBXTI */ 
71 /* Define if you have the mkstemp function. */ 
72 #define HAVE MKSTEMP 1 
73 /* define if struct msghdr contains the msg control element */ 
74 #define HAVE MSGHDR MSG, CONTROL 1 
75 /* Define if you have the «netconfig.h» header file. */ 
76 #define HAVE NETCONFIG H 1 
77 /* Define if you have the «netdb.h» header file. */ 
78 #define HAVE NETDB H 1 
79 /* Define if you have the «netdir.h» header file. */ 
80 /* #undef HAVE NETDIR H */ 
81 /* Define if you have the «netinet/in.h» header file. */ 
82 #define HAVE NETINET IN H 1 
83 /* Define if you have the «net/if dl.h» header file. */ 
84 #define HAVE NET IF DL H 1 
85 /* Define if you have the poll function. */ 
86 #define HAVE POLL 1 
87 /* Define if you have the «poll.h» header file. */ 
88 #define HAVE POLL H 1 
89 /* Define if you have the pselect function. */ 
90 #define HAVE PSELECT 1 
91 /* define if pselect prototype is in «sys/stat.h» */ 
92 #define HAVE PSELECT, PROTO 1 
93 /* Define if you have the «pthread.h» header file. */ 
94 #define HAVE PTHREAD H 1 
95 /* Define if you have the «signal.h» header file. */ 
96 #define HAVE SIGNAL H 1 
97 /* Define if you have the snprintf function. */ 
98 #define HAVE SNPRINTF 1 
99 /* define if snprintf prototype is in «stdio.h» */ 
100 #define HAVE SNPRINTF. PROTO 1 
101 /* Define if «net/if dl.h» defines struct sockaddr dl */ 
102 #define HAVE SOCKADDR DL, STRUCT 1 
103 /* define if socket address structures have length fields */ 
104 #define HAVE SOCKADDR SA LEN 1 
105 /* Define if you have the sockatmark function. */ 
106 #define HAVE SOCKATMARK 1 
107 /* define if sockatmark prototype is in «sys/socket.h» */ 
108 #define HAVE SOCKATMARK, PROTO 1 


; 图 D-2 G$) 
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/* Define if you have the <stdio.h> header file. */ 
#define HAVE STDIO H 1 


/* Define if you have the <stdlib.h> header file. */ 
#define HAVE STDLIB H 1 


/* Define if you have the «strings.h» header file. */ 
define HAVE STRINGS H 1 


/* Define if you have the «string.h» header file. */ 
#define HAVE STRING .H 1 


/* Define if you have the «stropts.h» header file. */ 
/* #undef HAVE STROPTS H */ 


/* Define if ifr mtu is member of struct ifreq. */ 
#define HAVE STRUCT IFREQ IFR MTU 1 


/* Define if the system has the type struct sockaddr storage. 


#define HAVE STRUCT SOCKADDR STORAGE 1 


/* Define if you have the «sys/event.h» header file. */ 
#define HAVE SYS EVENT H 1 


/* Define if you have the «sys/filio.h» header file. */ 
#define HAVE SYS FILIO H 1 


/* Define if you have the «sys/ioctl.h» header file. */ 
#define HAVE SYS IOCTL H 1 


/* Define if you have the «sys/select.h» header file. */ 
#define HAVE SYS SELECT H 1 


/* Define if you have the «sys/socket.h» header file. */ 
#define HAVE SYS SOCKET H 1 


/* Define if you have the «sys/sockio.h» header file. */ 
#define HAVE SYS SOCKIO H 1 


/* Define if you have the «sys/stat.h» header file. */ 
#define HAVE SYS STAT H 1 


/* Define if you have the «sys/sysctl.h» header file. */ 
#define HAVE SYS SYSCTL H 1 


/* Define if you have the «sys/time.h» header file. */ 
#define HAVE SYS TIME H 1 


/* Define if you have the <sys/types.h> header file. */ 
#define HAVE SYS TYPES H 1 


/* Define if you have the «sys/uio.h» header file. */ 
#define HAVE SYS UIO H 1 


/* Define if you have the «sys/un.h» header file. */ 
#define HAVE SYS UN H 1 


/* Define if you have the «sys/wait.h» header file. */ 
#define HAVE SYS WAIT H 1 


/* Define if «time.h» defines struct timespec */ 
#define HAVE TIMESPEC, STRUCT 1 


/* Define if you have the «time.h» header file. */ 
#define HAVE TIME H 1 
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/* Define if you have the «unistd.h» header file. */ 
define HAVE UNISTD H 1 


/* Define if you have the vsnprintf function. */ 
#define HAVE VSNPRINTF 1 


/* Define if you have the «xti.h» header file. */ 
/* kundef HAVE XTI H */ 


/* Define if you have the «xti inet.h» header file. */ 
/* #undef HAVE XTI INET H */ 


/* Define if the system supports IPv4 */ 
*define IPV4 1 


/* Define if the system supports IPv6 */ 
#define IPV6 1 


/* Define if the system supports IPv4 */ 
#define IPv4 1 


/* Define if the system supports IPv6 */ 
#define IPv6 1 


/* Define if the system supports IP Multicast */ 
#define MCAST 1 


/* the size of the sa_family field in a socket address structure */ 
/* #undef SA FAMILY T */ 


/* Define if you have the ANSI C header files. */ 
#define STDC HEADERS 1 


/* Define if you can safely include both «sys/time.h» and «time.h». */ 
#define TIME WITH SYS TIME 1 


/* Define if the system supports UNIX domain sockets */ 
#define UNIXDOMAIN 1 


/* Define if the system supports UNIX domain sockets */ 
#define UNIXdomain 1 


/* 16 bit signed type */ 
/* #undef intl6 t */ 


/* 32 bit signed type */ 
/* #undef int32 t */ 


/* the type of the sa family struct element */ 
/* #undef sa family t */ 


/* unsigned integer type of the result of the sizeof operator */ 
/* &undef size t */ 


/* a type appropriate for address */ 
/* #undef socklen t */ 


/* define to | ss family if sockaddr storage has that instead of ss family */ 
/* #undef ss family */ 


/* a signed type appropriate for a count of bytes or an error indication */ 
/* #undef ssize t */ 


/* scalar type */ 
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196 #define t scalar t int32 t 


197 /* unsigned scalar type */ 
198 #define t uscalar t uint32 t 


199 /* 16 bit unsigned type */ 
200 /* #undef uinti6 t */ 


201 /* 32 bit unsigned type */ 
202 /* #undef uint32 t */ 


203 /* -bit unsigned type */ 
204 /* #undef uint8 t */ 





sparc64-unknown-freebsd5. l/config.h 
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D.3 ”标准 错误 处 理 函数 


我 们 自行 定义 了 一 组 用 于 贯穿 全 书 处 理 出 错 条 件 的 错误 处 理 函数 。 如 此 定义 和 使 用 这 组 错 
误 处 理 函 数 的 原因 是 我 们 可 以 如 下 所 示 使 用 一 行 C 代 码 写 出 错误 处 理 过 程 : 





if (出 错 条 件 ) 

err sys (WFR H Se pring exis ) ; 
而 不 是 如 下 所 示 使 用 多 行 C 代 码 : 
it (出 错 条 件 ) c 


char buff [200]; 

snprintf (buff, sizeof (buff)， 带 任意 数 日 参数 的 priny 格 式 串 ) ; 
perror (buff); 

exit(1); 


) 


我 们 的 错误 处 理 函 数 使 用 ANSIC 的 可 变 长 度 参 数列 表 机 制 ， 具 体 细节 参见 [Kernighan and 
Ritchie 1988] 的 7.3 节 。 

图 D-3 列 出 了 各 个 错误 处 理 函 数 之 间 的 差异 。 如 果 全 局 整数 aaemon_proc 不 为 0， 出 错 消 息 
就 按 指 定 的 级 别传 递 给 syslog， 否 则 出 错 消息 显示 在 标准 错误 输出 上 。 








Ea x strerror (errno)? i 结束 语句 syslog 级 别 
err, dump | 是 abort (}; LOG_ERR 
err_msg 否 return; LOG_INFO 
err_quit 7 exit(1); LOG_ERR 
err_ret | 是 return; LOG_INFO 
err_sys 是 exit(1); LOG_ERR 











图 D-3 ”标准 错误 处 理 函 数 汇总 
图 D-4 给 出 了 图 D-4 中 的 5 个 函数 。 





lib/error.c 
1 #include "unp.h" 
2 include «stdarg.h» /* ANSI C header file */ 
3 #include «syslog.h» /* for syslog() */ 
4 int daemon proc; /* set nonzero by daemon init() */ 





图 D-4 我们 的 标准 错误 处 理 函 数 
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static void err doit(int, int, const char *, va list); 


5 

6 /* Nonfatal error related to system call 
7 * Print message and return */ 
8 


void 
9 err ret(const char *fmt, ...) 
10 ( 
11 va list ap; 
12 va_start (ap, fmt); 
13 err_doit(1, LOG_INFO, fmt, ap); 
14 va_end (ap); 
15 return; 
16 ) 


17 /* Fatal error related to system call 
18 * Print message and terminate */ 


19 void 

20 err sys(const char *fmt, ...) 

21. t 

22 va list ap; 

23 va start(ap, fmt); 

24 err doit(1, LOG ERR, fmt, ap); 
25 va end(ap); 

26 exit (1); 

27 ) 


28 /* Fatal error related to system call 
29 * Print message, dump core, and terminate */ 


30 void 

31 err dump(const char *fmt, ...) 

32 ( 

33 va list ap; 

34 va start(ap, fmt); 

35 err doit(1, LOG ERR, fmt, ap); 

36 va end(ap); 

37 abort (); /* dump core and terminate */ 
38 exit(1); /* shouldn't get here */ 

39 ) 


40 /* Nonfatal error unrelated to system call 
41 * Print message and return */ 


42 void 

43 err msg(const char *fmt, ...) 

44 ( 

45 va list ap; 

46 va start(ap, fmt); 

47 err doit(0, LOG_INFO, fmt, ap); 
48 va_end (ap) ; 

49 return; 

50 } 


51 /* Fatal error unrelated to system call 
52 * Print message and terminate */ 
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53 void 

54 err quit(const char *fmt, ...) 

55 { 

56 va list ap; 

57 va start(ap, fmt); 

58 err doit(0, LOG ERR, fmt, ap); [911] 
59 va, end (ap) ; 

60 exit(1); 

61 } 


62 /* Print message and return to caller 
63 * Caller specifies "errnoflag" and "level" */ 


64 static void 
65 err doit(int errnoflag, int level, const char *fmt, va list ap) 


66 { 

67 int errno, save, n; 

68 char buf [MAXLINE + 1); 

69 errno save = errno; /* value caller might want printed */ 
70 #ifdef HAVE_VSNPRINTF 

71 vsnprintf(buf, MAXLINE, fmt, ap); /* safe */ 

72 telse 

73 vsprintf(buf, fmt, ap); /* not safe */ 

74 #endif 

75 n = strlen(buf); 

76 if (errnoflag) 

717 snprintf(buf + n, MAXLINE - n, ": $s", strerror(errno save)); 
78 strcat(buf, "\n"); 

79 if (daemon proc) { 

80 syslog(level, buf); 

81 ) else { 

82 fflush(stdout); /* in case stdout and stderr are the same */ 
83 fputs(buf, stderr); 

84 £flush(stderr); 

85 } 二 

86 return; 

87 } 











lib/error.c 
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1.5 


Urat 


精 选 习题 答案 


在 Solaris 上 我 们 得 到 


solaris $ daytimetcpcli 127.0.0.1 
Socket error: Protocol not supported 


要 找 出 有 关 这 个 错误 的 详细 信息 ， 我 们 首先 在 <sys/errno.h> 头 文件 中 使 用 grep 查 找 
字符 串 Protocol not supported. 


solaris % grep 'Protocol not supported' /usr/include/sys/errno.h 
#define EPROTONOSUPPORT 120 /* Protocol not supported */ 


这 就 是 由 socket 返 回 的 errno 值 。 我 们 然后 查看 手册 页 面 : 
solaris $ man socket 

大 多 数 手册 页 面 在 将 近 结束 处 形 如 “Errors” 的 标题 下 给 出 这 个 错误 的 额外 信息 ， 不 过 
有 些 简 洁 。 

我 们 把 第 一 个 声明 改 成 : 

int sockfd, n, counter = 0; 

再 作为 while 循 环 的 第 一 个 语句 加 上 如 下 行 : 

counter++; 

最 后 在 结束 之 前 加 上 如 下 行 : 

printf ("counter = %d\n", counter); 

所 显示 的 值 总 是 1。 

我 们 声明 一 个 名 为 i 的 int 变 量 ， 再 把 write 调 用 改 为 : 


for (i = 0; i < strlen(buff); i++) 
Write(connfd, &buff(i], 1); 


其 结果 随 客 户主 机 和 服务 器 主机 而 定 。 如 果 客 户 和 服务 器 运行 在 同一 个 主机 上 ， 那 么 
计数 器 值 通常 是 1， 意 味 着 尽管 服务 器 调用 了 26 次 write， 所 写 出 数据 也 仅 由 客户 的 
一 次 reaG 返 回 。 然 而 如 果 客 户 运行 在 Solaris 2.5.1 上 而 服务 器 运行 在 BSD/OS 3.0 上 ， 
那么 计数 器 值 通常 是 2。 如 果 监 视 以 太 网 上 的 分 组 ， 我 们 发 现 第 一 个 字符 自 成 一 个 分 
组 发 送 ,剩余 25 个 字符 包含 在 下 一 个 分 组 内 发 送 。( 我 们 在 7.9 节 就 Nagle 算 法 的 讨论 解 
释 了 如 此 行为 的 原因 。〉 相反 ， 如 果 客 户 运 行 在 BSD/OS 3.0 上 而 服务 器 运行 在 Solaris 
2.5.1 上 ， 那 么 计数 器 值 是 26。 如 果 监 视 以 太 网 上 的 分 组 ， 我 们 发 现 每 个 字符 自 成 一 个 
分 组 发 送 。 

本 例子 的 目的 在 于 强调 不 同 的 TCP 对 数据 做 不 同 的 处 理 ， 我 们 的 应 用 程序 必须 做 好 作 
为 字 节 流 读 入 这 些 数 据 的 准备 ， 直 到 遇 上 数据 流 末尾 。 
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2. 访问 http://www.iana.org/numbers.htm， 找 到 名 为 “IP Version Number” 的 注册 处 ， 我 们 
看 到 版 本 0 是 保留 的 ， 版 本 1 一 3 未 曾 分 配 ， 版 本 5 是 网 际 网 流 协议 nternet Stream 
Protocol). 

22 所 有 RFC 都 可 以 通过 电子 邮件 、 匿 名 FTP 或 Web 免 费 获取 。 起 始点 之 一 是 http://www. 
ietf.org。 目 录 ftp://ftp.isi.edu/in-notes 是 一 个 存放 RFC 的 位 置 。 可 以 从 取得 当前 RFC 索 引 
开始 ， 它 通常 是 文件 rfc-index.txt (也 可 以 取得 它 的 HTML 版 本 http://www.rfc- 
editor.org/rfc-index.html1〉。 使 用 某 种 形式 的 编辑 器 搜索 RFC 索 引 (参见 上 一 个 习题 的 
解答 ) 查找 “Stream” 一 词 ， 我 们 发 现 RFC 1819 定 义 了 网 际 网 流 协议 的 版 本 2。 无 论 何 
时 查找 可 能 是 由 某 个 RFC 涵 盖 的 信息 ， 别 忘 了 先 搜 索 RFC 索 引 。 

2.3 对 于 IPv4 这 个 默认 值 产 生 576 字 节 的 IP 数 据 报 〈 其 中 IPv4 首 部 占用 20 字 节 ，TCP 首 部 占 
用 20 字 节 ， 剩 下 536 字 节 的 TCP 净 荷 })， 这 是 IPv4 的 最 小 重组 缓冲 区 大 小 。 

24 ”本 例子 中 执行 主动 关闭 操作 的 是 服务 器 而 不 是 客户 。 

2.5 令 牌 环 网 上 的 主机 不 能 发 送 超过 1460 字 节 的 数据 ， 因 为 它 接收 到 的 MSS 是 1460。 以 太 
网 上 的 主机 可 以 发 送 最 多 4096 字 节 的 数据 ， 但 是 为 了 避免 分 片 ， 它 不 会 超过 外 出 接口 
〈 即 以 太 网 ) 的 MTU。TCP 净 荷 不 能 超过 由 对 端 宣告 的 MSS， 但 是 净 荷 小 于 这 个 数量 的 
TCP 分 节 总 是 可 以 发 送 的 。 

2.6 Assigned Numbers 网 页 Chttp://www.iana.org/numbers.htm) 中 的 “ProtocolNumbers” 注 册 
处 给 出 OSPF 的 协议 号 为 89。 

2. 选择 性 确认 只 是 表明 由 选择 性 确认 消息 反映 的 序列 号 所 涵盖 的 数据 已 被 接收 ， 而 累积 
确认 表明 由 累积 确认 消息 中 的 序列 号 指示 的 所 有 以 前 的 数据 都 已 被 接收 。 如 果 从 发 送 
缓冲 区 中 基于 选择 性 确认 释放 数据 ， 那 么 系统 只 能 释放 确切 被 确认 的 数据 ， 而 不 能 释 
放 之 前 或 之 后 的 任何 数据 。 
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3.1 CC 中 函数 不 能 改变 按 值 传递 的 参数 的 值 。 要 让 被 调用 的 函数 修改 由 调用 者 传 入 的 某 个 
值 ， 调 用 者 必须 传递 指向 这 个 待 修改 值 的 一 个 指针 。 

3.2 ”指针 必须 按 所 读 或 所 写 的 字 节 数 增长 , 但 是 C 不 允许 voia 指 针 如 此 增长 (因为 C 编 译 器 
不 知道 voia 指 针 指 向 的 数据 类 型 )。 


第 4 章 


4.1 看 一 下 除 INADDR_ANY( 它 的 各 位 全 为 0) 和 INADDR_NONE〔 它 的 各 位 全 为 1) 外 以 
INADDR_ 打头 的 各 个 常 值 的 定义 。 譬如 说 D 类 多 播 地 址 INADDR_MaAx_LOCRAL_GROUE 的 定 
义 是 0xe00000ff， 其 注释 是 “224.0.0.255”， 它 显然 是 按 主机 字 节 序 定义 的 。 

42 ”下面 是 在 connect 调 用 之 后 新 添加 的 若干 行 : 
len = sizeof(cliaddr); 
Getsockname(sockfd, (SA *) &cliaddr, &len); 


printf("local addr: %s\n", 
Sock_ntop((SA *) &cliaddr, len)); 


这 要 求 声明 1en 为 socklen_t 变 量 并 声明 cliaddr 为 struct sockaddr in 变量 。 注意 
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getsockname 的 值 -结果 参数 Cen) 必须 在 调用 之 前 初始 化 成 由 第 二 个 参数 所 指向 变 
量 的 大 小 。 涉 及 值 -结果 参数 的 最 常见 编程 错误 就 是 忘记 了 这 样 的 初始 化 。 

4.3“ 子 进程 调用 close 时 引用 计数 从 2 递减 为 1， 因 此 不 会 向 客户 发 送 FIN。 以 后 当 父 进程 调 
用 close 时 引用 计数 递减 为 0， 于 是 发 送 FIN。 

44 ， accept 返回 BINVAL， 因 为 它 的 第 一 个 参数 不 是 一 个 监听 套 接 字 描 述 符 。 

45 不 调用 binqa 的 话 ，listen 调 用 赋予 监听 套 接 字 一 个 临时 端口 。 


第 5 章 


5. TIME_WAIT 状 态 的 持续 时 间 应 该 在 1 分 钟 到 4 分 钟 之 间 ， 前 提 是 MSL 在 30 秒 钟 到 2 分 钟 
之 间 。 

52 ”把 一 个 二 进 制 文件 作为 客户 的 标准 输入 时 我 们 的 客户 /服务 器 程序 并 不 工作 。 假 设 前 3 
个 字 节 为 二 进 制 数 1 二进制 数 0 和 一 个 换行 符 。 图 5-5 中 fgets 调 用 最 多 读 入 MAXLINE-1 
个 字符 ,除非 碰 到 换行 符 或 已 到 达 文 件 尾 而 提前 返回 .在 本 例子 中 它 将 读 入 前 3 个 字符 ， 
然后 以 一 个 空 字 节 结 束 待 返回 的 字符 串 。 然 而 图 $-5 中 strlen 调 用 返回 的 是 1， 因 为 它 
只 计 到 第 一 个 空 字 节 。 客 户 于 是 只 把 第 一 个 字 节 发 送 给 服务 器 ， 导 致 服务 器 阻塞 在 
readline 调 用 上 ,等 待 一 个 换行 符 。 客 户 也 阻塞 在 等 待 服务 器 的 应 答 上 。 这 就 是 所 谓 
的 死 锁 CdeadlockO: 两 个 进程 都 阻塞 在 等 待 因 对 方 原因 而 永远 不 会 到 达 的 事件 上 。 这 
里 的 问题 是 fgets 以 一 个 空 字 节 表 征 所 返回 数据 的 结尾 ， 因 此 它 读 入 的 数据 不 能 含有 
任何 空 字 节 。 

5.3 ”Telnet 把 输入 行 转换 成 NVT ASCII (TCPv1 的 26.4 节 )， 意 味 着 以 CR〔 回 车 符 〉 后跟 LF 
(换行 符 ) 的 双 字 节 序 列 终止 每 一 行 。 而 我 们 的 客户 程序 只 加 一 个 换行 符 。 尽 管 如 此 ， 
我 们 仍然 可 以 使 用 Telnet 客 户 与 我 们 的 服务 器 通信 ， 因 为 我 们 的 服务 器 回 射 每 个 字符 ， 
包括 每 个 换行 符 之 前 的 回 车 符 。 

5.4 ”连接 终止 序列 的 最 后 两 个 分 节 并 不 发 送 。 我 们 杀 掉 服务 器 子 进程 之 后 (在 客户 输入 
“another line” 之 前 )， 客 户 向 服务 器 发 送 数据 导致 服务 器 TCP 响 应 以 一 个 RST。 这 个 
RST 使 得 连接 中 止 , 并 防止 连接 的 服务 器 端 (执行 主动 关闭 的 那 一 端 ) 经 历 TIME_WAIT 

5.5 ”没有 什么 变化 ， 因 为 在 服务 器 主机 上 新 启动 的 服务 器 进程 创建 一 个 监听 套 接 字 就 等 待 
新 的 连接 请 求 的 到 达 。 我 们 在 步骤 3 发 送 的 是 需 进入 某 个 ESTABLISHED 状 态 TCP 连 接 
的 数据 分 节 ， 而 新 启动 的 服务 器 在 其 监听 套 接 字 上 绝 看 不 到 这 些 数据 分 节 ， 因 此 服务 
器 主机 的 TCP 对 它们 的 响应 仍然 是 RST。 

5.6 ”图 E-1 给 出 了 这 个 程序 。 在 Solaris 上 运行 它 产生 如 下 输出 : 


solaris $ tsigpipe 192.168.1.10 
SIGPIPE received 
write error: Broken pipe 


第 一 个 2 秒 钟 的 sleep 用 于 让 daytime 服 务 器 发 送 应 答 并 关闭 它 的 连接 所 在 端 。 第 一 个 
write 导致 发 送 一 个 数据 分 节 到 服务 器 ， 服 务 器 则 响应 以 RST 〈 因 为 daytime 服 务 器 已 
经 完全 关闭 了 它 的 套 接 字 )。 注 意 TCP 人 允许 我 们 继续 写 出 到 一 个 已 收 到 FIN 的 套 接 字 。 
第 二 个 sleep 让 客户 接收 到 服务 器 的 RST， 于 是 第 二 个 write 引发 SIGPIPE 信 和 号。 既然 
信号 处 理 函 数 返 回 主 控制 流 ，write 于 是 返回 一 个 EPIPE 的 错误 。 
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tcpcliserv/tsigpipe.c 
1 #include "unp.h" 
2 void 
3 sig pipe(int signo) 
4{ 
5 printf ("SIGPIPE received\n"); 
6 return; 
7} 
8 int 
9 main(int argc, char **argv) 
10 { 
11 int sockfd; 
12 struct sockaddr in servaddr; 
13 if (arge != 2) 
14 err quit("usage: tcpcli <IPaddress>") ; 
15 sockfd = Socket(AF INET, SOCK, STREAM, 0); 
16 bzero(&servaddr, sizeof (servaddr)):; 
17 servaddr.sin_family = AF_INET; 
18 servaddr.sin_port = htons(13); /* daytime server */ 
19 Inet pton(AF INET, argv[1], &servaddr.sin, addr); 
20 Signal(SIGPIPE, sig pipe); 
21 Connect(sockfd, (SA *) &servaddr, sizeof(servaddr)); 
22 sleep(2); 
23 Write(sockfd, “hello", 5); 
24 sleep(2); 
25 Write(sockfd, "world", 5); 
26 exit (0); 
27 ) 
tcpcliserv/tsigpipe.c 


图 E-1 产生 SIGPIPE 


5.7 ”假设 服务 器 主机 支持 弱 端 系统 模型 (weak end system model， 在 8.8 节 讲解 )， 那 么 一 切 
正常 。 也 就 是 说 即使 目的 下 地 址 是 右 端 数据 链 路 的 卫 地 址 ， 服 务 器 主机 也 会 接受 到 达 
左 端 数据 链 路 的 外 来 IP 数 据 报 〈 本 例子 中 它 承 载 一 个 TCP 分 节 )。 我 们 可 以 如 下 测试 这 
一 点 : 在 主机 1inux (1-16) 上 运行 服务 器 ， 然 后 在 主机 solaris 上 启动 客户 ， 不 过 
给 客户 指定 的 是 服务 器 主机 的 另 一 个 了 地 址 〈206.168.112.96)。 连 接 建 立 之 后 如 果 在 
服务 器 主机 上 运行 netstat， 我 们 将 看 到 该 连接 的 本 地 IP 地 址 是 来 自 客户 SYN 的 目的 
IP 地 址 ， 而 不 是 SYN 到 达 数 据 链 路 的 IP 地 址 (这 跟 我 们 在 4.4 节 提 及 的 一 样 )。 

5.8 ”我 们 的 客户 运行 在 小 端 字 节 序 的 Intel 系 统 上 ， 那 儿 32 位 整数 值 1 按 图 E-2 所 示 格 式 存 


放 。 
32 位 整数 
| o0 | oo | oo | o1 | 
地 址 : A+3 A+ A+1 A 


图 E-2 32 位 整数 值 1 的 小 端 字 节 序 格式 表示 
这 4 个 字 节 按 4、4+7、4+2 和 4+3 的 顺序 通过 套 接 字 发 送 ， 然 后 以 如 图 E-3 所 示 的 大 端 
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字 节 序 格式 存放 。 


01 
A A+l Á+ A+3 


图 E-3 ”来自 图 E-2 的 32 位 整数 以 大 端 字 节 序 格式 表示 


值 0x01000000 就 是 16777216。 类 似 地 ， 由 客户 发 送 的 整数 2 将 被 服务 器 解释 成 
0x02000000 即 33554432。 这 两 个 整数 的 和 是 50331648 即 0x03000000。 服 务 器 把 这 个 
大 端 字 节 序 值 发 送 给 客户 后 ， 客 户 把 它 解释 成 整数 3。 

然而 32 位 整数 值 -22 在 小 端 字 节 序 系统 上 如 图 E-4 表 示 ， 采 用 的 是 负数 的 二 进 制 补 码 
表示 。 


Lan ESE 


A+3 4+2 A+l A 
图 E-4 32 位 整数 值 -22 的 小 端 字 节 序 格式 表示 


它 在 大 端 字 节 序 服务 器 主机 上 被 解释 成 0xeaffffff 即 -352321537。 类 似 地 ，-77 的 小 
端 字 节 序 表示 是 0xtftfftffb3， 但 是 在 大 端 字 节 序 服务 器 主机 上 却 表示 成 0xb3ffffff 
即 -1275068417。 服 务 器 上 的 这 两 个 整数 相 加 的 结果 是 0x9effffe 即 -1627389954。 
这 个 大 端 字 节 序 的 值 通过 套 接 字 发 送 给 客户 后 以 小 端 字 节 序 解释 的 值 是 0xfeffff9e 
即 -16777314， 它 就 是 我 们 的 例子 所 显示 的 值 。 

技术 路 线 是 正确 的 (把 二 进 制 值 转换 成 网 络 字 节 序 表示 ), 但 是 不 能 使 用 hton1 和 ntohl 
这 两 个 函数 。 尽 管 这 两 个 函数 中 的 ! 曾 经 表意 “long”( 长 整数 )， 它 们 却 只 是 操作 在 32 
位 整数 上 (3.4 节 )。64 位 系统 上 一 个 长 整数 可 能 占据 64 位 ， 这 两 个 函数 就 不 能 正确 工 
作 了 。 有 人 也 许 定义 hton64 和 ntoh64 这 两 个 函数 来 解决 本 问题 ， 但 是 它们 在 使 用 32 
位 表示 长 整数 的 系统 上 又 不 能 工作 。 

第 一 种 情形 下 服务 器 将 永远 阻塞 在 图 5-20 的 readn 中 ， 因 为 客户 发 送 的 是 2 个 32 位 值 ， 
但 是 服务 器 等 待 的 却 是 2 个 64 位 值 。 这 两 个 主机 之 间 对 换 客户 和 服务 器 将 导致 客户 发 送 
2 个 64 位 值 ， 但 是 服务 器 只 读 入 第 一 个 64 位 ， 并 把 它 解释 成 2 个 32 位 值 。 第 二 个 64 位 值 
仍然 在 服务 器 的 套 接 字 接收 缓冲 区 中 。 服务 器 往 回 写 出 1 个 32 位 值 , 但 是 客户 却 仍然 永 
远 阻 塞 在 图 $-19 的 reaen 中 ， 等 待 读 入 1 个 64 位 值 。 

IP 路 由 功能 查看 目的 IP 地 址 (服务 器 主机 的 IP 地 址 )， 搜 索 路 由 表 确 定 外 出 接口 和 下 一 
嘴 (1CPv1 第 9 章 )。 外 出 接口 的 主 IP 地 址 用 作 源 IP 地 址 ， 前 提 是 该 套 接 字 尚 未 绑 定 某 个 
本 地 IP 地 址 。 


这 个 整数 数组 包含 在 一 个 结构 中 ， 而 C 是 允许 结构 跨 等 号 赋值 的 。 

如 果 select 告 诉 我 们 某 个 套 接 字 可 写 , 该 套 接 字 的 发 送 缓冲 区 就 有 8192 字 节 的 可 用 空 
间 ， 但 是 当 我 们 以 8193 字 节 的 缓冲 区 长 度 对 这 个 阻塞 式 套 接 字 调 用 write 时 ，wrice 
将 会 阻塞 ， 等 待 最 后 1 个 字 节 的 可 用 空间 。 对 阻塞 式 套 接 字 的 读 操作 只 要 有 数据 总 会 
返回 一 个 不 足 计数 (short count)， 然 而 对 阻塞 式 套 接 字 的 写 操作 将 一 直 阻 塞 到 所 有 数 
据 都 能 被 内 核 接受 为 止 。 可 见 当 使 用 select 测 试 某 个 套 接 字 的 可 写 条 件 时 ， 我 们 必须 
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把 该 套 接 字 预 先 设置 成 非 阻塞 以 避免 阻塞 。 

如 果 两 个 描述 符 都 可 读 ， 那 么 只 执行 第 一 个 测试 ， 它 测试 的 是 套 接 字 描述 符 。 不 过 这 
么 做 并 没有 导致 客户 程序 不 能 工作 ， 它 只 是 降低 了 效率 而 已 。 这 就 是 说 ， 如 果 select 
返回 值 表 明 两 个 描述 符 均 可 读 , 那么 第 一 个 if 语句 为 真 ， 导 致 客户 从 套 接 字 readline 
并 fputs 到 标准 输出 。 下 一 个 if 语句 却 被 跳 过 《〈 就 因为 我 们 在 这 个 if 关键 词 之 前 所 冠 
的 else 关 键 词 )， 不 过 select 接 者 再 次 被 调用 ， 它 马上 发 现 标准 输入 可 读 ， 于 是 立即 
返回 。 这 里 的 关键 概念 是 清除 “标准 输入 可 读 ” 条 件 的 不 是 select 的 返回 ， 而 是 从 标 
准 输入 真正 地 读 入 。 

使 用 getrlimit 函 数 取得 RLIMIT_NOFILE 资 源 的 当前 值 ， 然 后 调用 setrlimit 把 当前 
软 限制 (rlim_cur) 设置 成 硬 限 制 〈rlim_max)。 举 例 来 说 ，Solaris 2.5 上 描述 符 数 目 
的 软 限制 是 64， 但 是 任何 进程 都 可 以 把 它 增长 到 默认 的 硬 限制 1024。 
getrlimit 和 setrlimit 不 属于 POSIX.1， 但 是 在 Unix 98 中 却 是 必需 的 。 

服务 器 应 用 进程 持续 向 客户 发 送 数 据 ， 客 户 TCP 确 认 后 扔 掉 它们 。 

以 参数 SHUT_RDWR 或 sSHUT_WR 调 用 shutaown 总 是 发 送 FIN, 而 close 只 在 调用 时 描述 符 
引用 计数 为 1 的 条 件 下 才 发 送 FIN。 

reaG 返 回 一 个 错误 ， 我 们 的 ReaG 包 训 函 数 于 是 终止 服务 器 。 服 务 器 不 应 该 如 此 脆弱 。 
注意 我 们 在 图 6-26 中 处 理 了 这 种 情况 ， 尽 管 即便 这 样 的 代码 还 是 不 够 健壮 。 考 虑 客户 
和 服务 器 之 间 丧 失 连 接 的 情况 ， 服 务 器 某 个 响应 的 发 送 尝试 最 终 发 生 超时 ， 返 回 的 错 
误 可 能 是 ETIMEDOUT。 

通常 服务 器 不 应 该 因为 这 样 的 原因 而 中 止 。 它 应 该 登记 错误 ， 关 闭 出 错 套 接 字 ， 并 继 
续 服务 其 他 客户 。 对 于 像 这 样 由 单个 进程 来 应 付 所 有 客户 的 服务 器 来 说 ， 简 单 中 止 的 
错误 处 理 方式 是 难以 接受 的 。 然 而 如 果 服 务 器 是 由 一 个 子 进程 来 应 付 仅仅 一 个 客户 ， 
那么 中 止 某 个 子 进 程 并 不 会 影响 父 进 程 (我 们 假定 它 处 理 所 有 的 新 连接 并 派生 子 进 
程 ) 和 服务 其 他 客户 的 任何 其 他 子 进程 。 


图 E-5 给 出 了 本 习题 的 解答 之 一 。 我 们 去 掉 了 用 于 显示 由 服务 器 返回 的 数据 串 的 那些 语 
句 ， 因 为 本 例子 用 不 着 这 些 值 。 

首先 声明 这 个 程序 没有 “唯一 正确 ”的 输出 ， 其 结果 随 系 统 而 变化 。 有 些 系统 〈 尤 如 
Solaris 2.5.1 及 更 早 版 本 ) 总 是 返回 0 值 的 套 接 字 缓冲 区 大 小 ， 使 得 我 们 无 法 查看 该 值 
在 连接 前 后 有 什么 事 发 生 。 

至 于 MSS， 在 connect 之 前 显示 的 值 是 实现 的 默认 值 ( 通 常 是 536 或 512)， 在 connect 
之 后 显示 的 值 则 取决 于 可 能 有 的 来 自 对 端的 MSS 选 项 。 举 例 来 说 ， 本 地 以 太 网 上 
connect 之 后 的 值 可 能 是 1460。 然 而 connect 某 个 远程 网 络 上 的 一 个 服务 器 主机 之 后 
显示 的 MSS 值 可 能 类 似 默认 值 , 除非 你 的 系统 支持 路 径 MTU 发 现 功 能 。 如 果 可 能 的 话 ， 
在 程序 运行 期 间 运 行 一 个 像 tcpdump(C.5 节 〉 这 样 的 工具 ， 以 查看 来 自 对 端的 SYN 分 
节 中 的 真正 MSS 选 项 。 

至 于 套 接 字 接收 缓冲 区 的 大 小 ， 许 多 实现 在 连接 建立 之 后 把 它 向 上 舍 入 成 MSS 的 倍 
数 。 查 看 连接 建立 之 后 套 接 字 接 收 缓冲 区 大 小 的 另 一 个 方法 是 使 用 像 ccpaump 这 样 的 
工具 监视 分 组 ， 观 察 TCP 的 通告 窗口 (advertised window). 
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sockopt/rcvbuf.c 

1 finclude "unp.h" 
2 #include «netinet/tcp.h» /* for TCP MAXSEG */ 
3 int 
4 main(int argc, char **argv) 
5í( 
6 int sockfd, rcvbuf, mss; 
7 socklen_t len; 
8 struct sockaddr_in servaddr; 
9 if (argc != 2) 
10 err quit("usage: rcvbuf «IPaddress»"); 
BL sockfd = Socket (AF_INET, SOCK STREAM, 0); 
12 len = sizeof (rcvbu£); 
13 Getsockopt (sockfd, SOL SOCKET, SO RCVBUF, &rcvbuf, &len); 
14 len - sizeof (mss); 
15 Getsockopt(sockfd, IPPROTO TCP, TCP MAXSEG, &mss, &len); 
16 printf("defaults: SO, RCVBUF = $d, MSS = %d\n", rcvbuf, mss); 
17 bzero(&servaddr, sizeof(servaddr)):; 
18 servaddr.sin family - AF, INET; 
19 servaddr.sin port - htons(13); /* daytime server */ 
20 Inet pton(AF INET, argv[1], &servaddr.sin_addr); 
21 Connect (sockfd, (SA *) &servaddr, sizeof(servaddr)); 
22 len = sizeof (rcvbuf); 
23 Getsockopt (sockfd, SOL SOCKET, SO RCVBUF, &rcvbuf, &len); 
24 len = sizeof (mss); 
25 Getsockopt(sockfd, IPPROTO TCP, TCP MAXSEG, &mss, &len); 
26 printf("after connect: SO RCVBUF = $d, MSS = %d\n", rcvbuf, mss); 
27 exit(0); 
28 } 

—— M ———— sockopt/rcybuf.c 


图 E-5 在 连接 建立 前 后 显示 套 接 字 接 收 缓冲 区 大 小 和 MSS 值 
73 ”分 配 一 个 名 为 1ing 的 1inger 结 构 并 如 下 初始 化 它 : 


str cli(stdin, sockfd); 


ling.l onoff = 1; 
ling.l linger = 0; 
Setsockopt(sockfd, SOL SOCKET, SO, LINGER, &ling, sizeof(ling)); 


exit(0); 
这 应 该 使 得 客户 TCP 以 一 个 RST 而 不 是 正常 的 4 分 节 交 换 终止 连接 。 服 务 器 子 进程 的 
readline 调 用 返回 ECONNRESET 错 误 ， 所 显示 的 消息 如 下 : 
readline error: Connection reset by peer 
尽管 执行 主动 关闭 的 是 客户 ， 它 也 不 应 该 经 历 TIME_WAIT 状 态 。 

74 第 一 个 客户 调用 setsockopt、binda 和 connect。 如 果 第 二 个 客户 在 第 一 个 客户 调用 
binda 和 connect 之 间 调 用 bind, 那么 它 将 返回 EappRINUSE 错 误 。 然 而 一 旦 第 一 个 客户 
已 连接 到 对 端 ， 第 二 个 客户 的 bind 就 正常 工作 ， 因 为 第 一 个 客户 的 套 接 字 当时 处 于 已 
连接 状态 处 理 这 种 竞争 状态 的 唯一 办 法 是 让 第 二 个 客户 在 binq 调 用 返回 EADDRINUSE 
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错误 的 情况 下 再 尝试 调用 bind 多 次 ， 而 不 是 一 返回 该 错误 就 放弃 。 
75 ”我 们 在 支持 多 播 的 一 个 主机 (MacOS X 10.2.6) 上 运行 这 个 程序 ?。 


macosx % sock -s 9999 & 以 通 配 地 址 启动 第 -一 个 服务 器 
[1] 29297 

macosx % sock -s 172.24.37.78 9999 不 使 用 -A 尝试 启动 第 二 个 服务 器 
can't bind local address: Address already in use 

macosx $ sock -s -A 172.24.37.78 9999 & 使 用 -A 再 次 尝试 :成功 

[2] 29699 

macosx % sock -s -A 127.0.0.1 9999 & 使 用 -A 启动 第 三 个 服务 器 ;成功 
[3] 29700 

macosx % netstat -na | grep 9999 

tcp4 0 0  127.0.0.1.9999 *.* LISTEN 

tcpá 0 0  172.24.37.78.9999 * LISTEN 

tep4 0 O0  *.9999 *o* LISTEN 


7.66 我 们 首先 在 支持 多 播 但 不 支持 SO_REUSEPORT 选 项 的 一 个 主机 (Solaris 9) 上 尝试 2。 


D 本 书 第 2 版 解答 如 下 。 我 们 在 不 支持 多 播 的 - -个 主机 (UnixWare 2.1.2) 上 运行 这 个 程序 。 


unixware $ sock -s 9999 & 以 通 配 地 址 启动 第 一 个 服务 器 

[1] 29697 

unixware * sock -s 206.62.226.37 9999 不 使 用 -A 尝试 启动 第 二 个 最 务 器 

can't bind local address: Address already in use 

unixware € sock -s -A 206.62.226.37 9999 & 使 用 -A 再 次 尝试 ， 成 功 

[21 29699 

unixware % sock -s -A 127.0.0.1 9999 & 使 用 -A 启动 第 三 个 服务 器 ， 成 功 

[3] 29700 

unixware è netstat -na | grep 9999 

tcp 0 0  127.0.0.1.9999 * LISTEN 

tcp 0 0  206.62.226.37.9999  *.* LISTEN < 

tcp 0 0  *.9999 wt LISTEN 一 一 译 者 注 
@ 本 书 第 2 版 解答 如 下 。 我 们 首先 在 不 支持 多 播 的 一 个 主机 (UnixWare 2.1.2) 上 尝试 。 

unixware $ sock -s -u -A 206.62.226.37 8888 & 第 一 个 服务 器 启动 

[4] 29707 


unixware $ sock -s -u -A 206.62.226.37 8888 
can't bind local address: Address already in use 不 能 启动 第 二 个 服务 器 


我 们 给 这 两 个 运行 实例 都 指定 了 so_REUSEADDR 选 项 ， 但 是 它 不 起 作用 。 
我 们 接着 在 支持 多 播 但 不 支持 SC_REUSEPORT 选 项 的 一 个 主机 (Solaris 2.6) 上 尝试 。 


solaris26 % sock -s -u 8888 & 第 一 个 服务 器 启动 
[1] 1135 

Solaris26 € sock -s -u 8888 

can't bind local address: Address already in use 


solaris26 % sock -s -u -A 8888 & 使 用 -A 启动 第 二 个 服务 器 ， 成 功 
solaris26 % netstat -na | grep 8888 我 们 看 到 重复 的 捆绑 

*.8888 Idle 

* 8888 Idle 


这 个 系统 上 第 - 个 bind 不 必 指 定 so_REUSEADDR， 但 是 第 二 个 起 必须 指定 。 

最 后 我 们 在 姨 支 持 多 播 又 支持 So_REUSEPORT 选 项 的 BSD/OS 3.0 上 进行 尝试 。 我 们 首先 给 一 前 一 后 两 个 服务 器 尝 
试 So0_REUSEADDR 选 项 ， 但 是 它 不 起 作用 。 

bsdi $ sock -u -s -A 7777 & 

[1] 17610 

bsdi $ sock -u -s -A 7777 

can't bind local address: Address already in use 

接着 只 给 第 二 个 服务 器 而 不 给 第 一 个 服务 器 尝试 SO_REUSEPORT 选 项 。 这 也 不 起 作用 ， 因 为 完全 重复 的 搁 绑 
要 求 共享 同一 捆绑 的 所 有 套 接 字 都 使 用 该 选项 。 

bsdi € sock -u -s 8888 & 

(1) 17612 

bsdi % sock -u -s -T 8888 

can't bind local address: Address already in use 

最 后 给 两 个 服务 器 都 指定 SO_REUSEPORT 选 项 ， 这 是 起 作用 的 。 

bsdi ¢ sock -u -s -T 9999 & 


{1] 17614 

Dsdi $ sock -u -s -T 9999 & 

12] 17615 

bsdi $ netstat -na | grep 9999 

udp 0 0 *.9999 ed ia 


udp 0 0 *.9999 * + 一 一 译 者 注 
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solaris $ sock -s -u 8888 & 第 个 服务 器 启动 
[1] 24051 

Solaris $ sock -s -u 8888 

can't bind local address: Address already in use 


solaris % sock -s -u -A 8888 & 使 用 -A 启动 第 二 个 服务 器 ; 成功 
solaris $ netstat -na | grep 8888 我 们 看 到 重复 的 捆绑 

*.8888 Idle 

*.8888 Idle 


这 个 系统 上 第 一 个 binda 不 必 指 定 So_REUSEADDR， 但 是 第 二 个 起 必须 指定 。 

最 后 我 们 在 既 支持 多 播 又 支持 SO_REUSEPORT 选 项 的 MacOS X 10.2.6 上 进行 尝试 。 我们 
首先 给 一 前 一 后 两 个 服务 器 尝试 S0_REUSEADDR 选 项 ， 但 是 它 不 起 作用 。 

macosx % sock -u -s -A 7777 & 

(1] 17610 

macosx $ sock -u -s -A 7777 

can't bind local address: Address already in use 


接着 只 给 第 二 个 服务 器 而 不 给 第 一 个 服务 器 尝试 so_REUSEPORT 选 项 。 这 也 不 起 作用 ， 
因为 完全 重复 的 捆绑 要 求 共享 同一 捆绑 的 所 有 套 接 字 都 使 用 该 选项 。 

macosx € sock -u -s 8888 & 

(1] 17612 

macosx $ sock -u -s -T 8888 

can't bind local address: Address already in use 


最 后 给 两 个 服务 器 都 指定 So_REUSEPORT 选 项 ， 这 是 起 作用 的 。 


macosx $ sock -u -s -T 9999 & 


[1] 17614 

macosx $ sock -u -s -T 9999 & 

[2] 17615 

macosx $ netstat -na | grep 9999 

udp4 0 0 *.9999 ini = 
udp4 0 0 *,9999 NDW 


它 不 起 任何 作用 ， 因 为 ping 使 用 ICMP 套 接 字 ， 而 So_DEBUG 套 接 字 选 项 只 影响 TCP 套 接 
字 。SO_DEPBUG 套 接 字 选 项 的 描述 一 直 有 些 笼 通 ， 璧 如 说 “这 个 选项 开启 相应 协议 层 中 
的 调试 ?， 但 是 实现 该 选项 的 唯一 协议 层 一 直 只 是 TCP。 

图 E-6 给 出 了 时 间 线 。 


延迟 了 的 ACK 


RTT 


M 
00 





图 E-6 ”Nagle 算 法 与 延 清 ACK 的 交互 情况 
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7.9 设置 TcP_NODpELAY 套 接 字 选项 导致 来 自 第 二 个 write 的 数据 被 立即 发 送 ， 即 使 该 连接 


上 还 有 一 个 尚未 得 到 确认 的 小 分 组 。 这 种 情况 如 图 E-7 所 示 。 本 例子 中 总 时 间 只 稍微 超 
过 150 ms。 


50 
100 osa 








图 E-7 通过 设置 rcP_NODELAY 套 接 字 选项 避免 Nagle 算 法 


7.10 ”这 种 办 法 的 优点 是 减少 了 分 组 的 个 数 ， 如 图 E-8 所 示 。 


7.11 


7.12 


7.13 


7.14 








图 E-8 ”使 用 writev 代 替 设 置 TcP_NODELAY 套 接 字 选项 


4.2.3.2 节 声称 “ 延 滞 必须 低 于 0.5 秒 钟 ， 而 且 在 完全 大 小 分 节 流 上 至 少 每 隔 一 个 分 节 就 
应 该 有 一 个 ACK”。 源 自 Berkeley 的 实现 延 滞 ACK 最 和 久 200ms 《TCPv2 第 821 页 )。 

图 $-2 中 的 服务 器 父 进程 大 部 分 时 间 花 在 阻塞 于 accept 调 用 中 ， 图 $-3 中 的 子 进程 则 大 
部 分 时 间 花 在 阻塞 于 read 调 用 中 , 它 是 由 readline 调 用 的 。 保 持 存 活 选项 对 于 监听 套 
接 字 不 起 作用 ， 因 此 父 进 程 不 受 客户 主机 裔 省 影响 。 子 进程 的 read 将 返回 ETIMEDOUT 
错误 ， 它 在 跨 连 接 的 最 后 一 次 数据 交换 之 后 约 2 小 时 发 生 。 

图 $-$ 中 的 客户 大 部 分 时 间 花 在 阻塞 于 fgets 调 用 中 ，fgets 本 身 则 阻塞 在 标准 MO 函数 
库 中 对 于 标准 输入 某 种 类 型 的 读 操作 中 。 当 跨 连 接 的 最 后 一 次 数据 交换 之 后 约 2 小 时 保 
持 存 活 定时 器 超时 并 且 所 有 保持 存活 侦探 分 组 都 没有 诱发 来 自 服务 器 的 响应 时 ， 套 接 
字 的 待 处 理 错误 被 设置 成 ErIMEDOUT。 然 而 客户 阻塞 在 对 于 标准 输入 的 fgets 调 用 中 ， 
因此 看 不 到 这 个 错误 ， 直 到 对 于 套 接 字 执 行 读 或 写 操作 。 这 就 是 我 们 在 第 6 章 把 图 5-5 
改 成 使 用 select 的 原因 之 一 。 

客户 大 部 分 时 间 花 在 阻塞 于 select 调 用 中 ， 一 旦 待 处 理 错 误 被 设置 成 BTIMEDoUT (如 
上 一 题 的 解答 所 述 )，select 就 立即 返回 套 接 字 的 可 读 条 件 。 

只 交换 2 个 而 不 是 4 个 TCP 分 节 。 两 个 系统 的 定时 器 精确 同步 的 可 能 性 非常 低 ; 因此 一 
端的 保持 存活 定时 器 会 比 另 一 端 略 早 一 点 超时 。 首 先 超时 的 那 一 端 发 送 保持 存活 侦探 
分 组 ， 导 致 另 一 端 确认 这 个 分 组 。 然 而 保持 存活 侦探 分 组 的 接收 导致 时 钟 略 慢 的 主机 


O 
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把 保持 存活 定时 器 重 置 成 2 小 时 。 

716 ”最 初 的 套 接 字 API 并 没有 1isten 函 数 。 相 反 ，socket 函 数 的 第 四 个 参数 含有 套 接 字 选 
项 ， 而 so_ACCEPTCON 就 是 用 来 指定 监听 大 , 接 字 的 。 加 了 1isten 函 数 后 ， 这 个 选项 还 
是 保留 着 ， 不 过 现在 只 是 由 内 核 来 设置 (TCPv2 第 456 页 )。 


第 8 章 


8. ”是 的 。 read 返 回 4096 字 节 的 数据 , recvfrom 则 返回 2048 字 节 (2 个 数据 报 中 的 第 一 个 )。 
不 管 应 用 请 求 多 大 ，recvfrom 决 不 会 返回 多 于 1 个 数据 报 的 数据 。 

82 ”如 果 协 议 使 用 可 变 长 度 套 接 字 地 址 结构 ，clilen 很 可 能 太 大 。 我 们 将 在 第 15 章 看 到 这 
对 于 Unix 域 套 接 字 地 址 结构 是 可 以 接受 的 ， 不 过 正确 编写 这 个 函数 的 方式 是 把 由 
recvfrom 返 回 的 真正 长 度 用 作 senato 的 长 度 。 

84 像 这 样 运行 bing 是 查看 由 运行 ping 的 主机 接收 到 的 ICMP 消 息 的 简易 方法 。 我 们 把 分 
组 发 送 频率 由 通常 的 每 秒 钟 1 次 降低 到 每 60 秒 钟 1 次 以 减少 输出 量 。 如 果 我 们 在 主机 
aix 上 运行 我 们 的 UDP 客户 程序 , 所 指定 的 服务 器 下 地 址 为 192.168.42.1, 同时 运行 ping 
程序 ， 就 会 得 到 如 下 输出 (注意 即使 指定 -v 选 项 ， 也 并 非 所 有 ping 客 户 程序 都 显示 所 
接收 到 的 ICMP 错 误 ): 


aix $ ping -v -i 60 127.0.0.1 

PING 127.0.0.1: (127.0.0.1): 56 data bytes 

64 bytes from 127.0.0.1: icmp seq-0 ttl-255 time-0 ms 

36 bytes from 192.168.42.1: Destination Port Unreachable 

Vr HL TOS Len ID Flg off TTL Pro cks Src Dst Data 

4 S 00 0022 0007 0 0000 le 11 c770 192.168.42.2 192.168.42.1 
UDP: from port 40645, to port 9877 (decimal) 


&5 监听 TCP 套 接 字 也 许 有 一 个 套 接 字 接收 缓冲 区 大 小 ， 但 是 它 绝 不 会 接受 数据 。 大 多 数 
实现 并 不 预先 给 套 接 字 发 送 缓冲 区 或 接收 缓冲 区 分 配 内 存 空间 。 使 用 so_sNDBUF 和 
SO_RCVBUE 套 接 字 选项 指定 的 套 接 字 缓 冲 区 大 小 仅仅 是 给 套 接 字 设 定 的 上 限 。 

86 ”我 们 在 多 宿主 机 freebsd 上 指定 -u 选 项 (使 用 UDP〉 和 -1 选项 (指定 本 地 IP 地 址 和 端 
口 ) 运行 sock 程 序 。 


freebsd $ sock -u -1 12.106.32.254.4444 192.168.42.2 8888 
hello 


本 地 IP 地 址 在 图 1-16 中 是 主机 freebse 的 因特网 侧 接口 ,但 是 数据 报 要 到 达 目 的 地 则 必 
须 从 另 一 个 接口 出 去 。" 使 用 tcpdump 监 视 网 络 表明 源 IP 地 址 确实 是 由 客户 绑 定 的 那个 
地 址 ， 而 不 是 外 出 接口 的 地 址 。 


14:28:29.614846 12.106.32.254.4444 > 192.168.42.2.8888: udp 6 
14:28:29.615225 192.168.42.2 » 12.106.32.254: icmp: 192.168.42.2 
udp port 8888 unreachable 


87 在 客户 程序 中 放 一 个 printf 调 用 会 在 每 个 数据 报 之 间 引 入 一 个 延迟 ， 从 而 允许 服务 器 
接收 更 多 的 数据 报 。 在 服务 器 程序 中 放 一 个 printf 调 用 则 会 导致 服务 器 丢失 更 多 数据 
报 。 

88 ”IPv4 数 据 报 最 大 为 65535 字 节 ， 这 由 图 A-1 中 16 位 的 总 长 度 字 段 限 定 。IPv4 首 部 需要 20 


(D “Connection refused〔 连 接 被 拒 )” 错 误 的 返回 是 因为 sock 程 序 调 用 connect， 导 致 服务 器 主机 返回 ICMP 端 口 不 


可 达 错 误 。 一 一 译 者 注 
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字 节 ，UDP 首 部 需要 8 字 节 ， 留 给 UDP 用 户 数据 最 大 65507 字 节 。 对 于 没有 任何 扩展 首 
部 的 IPv6 数 据 报 而 言 〈 自 然 没有 特大 报 支持 ， 因 为 特大 净 荷 长 度 是 一 个 步 跳 选项 ， 出 
现在 步 跳 选项 扩展 首部 中 )， 扣 除 IPv6 首 部 的 净 荷 最 大 为 65535 字 节 《图 A-2)， 再 扣除 8 
字 节 UDP 首部 ， 留 给 UDP 用 户 数据 最 大 65527 字 节 。? 

图 E-9 给 出 了 as_cli 函 数 的 新 版 本 。 如 果 没 有 预先 设置 发 送 缓冲 区 大 小 ， 源 自 Berkeley 
的 内 核 就 给 sendto 调 用 返回 EMsGsIZE 错 误 ， 因 为 套 接 字 发 送 缓冲 区 的 默认 大 小 通常 
不 足以 暂 存 最 大 的 UDP 数据 报 〈 先 做 完 习题 7.1)。 然 而 如 果 我 们 运行 如 图 E-9 所 示 客 户 
程序 ， 先 设置 客户 套 接 字 缓 冲 区 大 小 再 发 送 和 接收 UDP 数据 报 ， 那 么 服务 器 不 返 送 任 
何 数 据 报 。 我 们 可 以 运行 Lcpdump 验 证 客户 的 数据 报 发 送 到 了 服务 器 上 ， 但 是 如 果 在 
服务 器 程序 中 放 一 个 printf 调 用 ， 我 们 就 发 现 它 的 recvfrom 调 用 并 没有 返回 这 个 数 
据 报 。 问 题 出 在 服务 器 的 UDP 套 接 字 接收 缓冲 区 小 于 我 们 发 送 的 数据 报 ， 因 此 该 数据 
报 被 丢弃 掉 而 不 是 被 递送 到 套 接 字 。 在 FreeBSD 系 统 上 我 们 可 通过 运行 hetstat -s 命 
令 ， 并 查看 接收 这 个 大 数据 报 前 后 “dropped due to full socketbuffers”( 因 套 接 字 缓 冲 
区 满 而 丢弃 ) 计数 器 值 的 变化 加 以 验证 。 最 终 的 办 法 就 是 修改 服务 器 程序 ， 预 先 设置 
它 的 套 接 字 发 送 缓冲 区 与 接收 缓冲 区 的 大 小 。 








udpcliserv/dgclibig.c 





#include "unp.h* 


i 
2 #undef MAXLINE 

3 #define MAXLINE 65507 

4 void 

5 dg cli(FILE *fp, int sockfd, const SA *pservaddr, socklen t servlen) 
6 { 

7 

8 


int size; 
char sendline[MAXLINE], recvline[MAXLINE + 1]; 
9 ssize t n; 
10 size - 70000; 
11 Setsockopt(sockfd, SOL SOCKET, SO SNDBUF, &size, sizeof(size)); 
12 Setsockopt(sockfd, SOL SOCKET, SO RCVBUF, &size, sizeof(size)); 
13 Sendto(sockfd, sendline, MAXLINE, 0, pservaddr, servlen); 
14 n - Recvfrom(sockfd, recvline, MAXLINE, 0, NULL, NULL); 
15 printf("received %d bytes\n", n); 
16 ) 





—— udpcliserv/dgclibig.c 
图 E-9 ” 写 出 最 大 大 小 的 UDP/IPv4 数 据 报 

大 多 数 网 络 上 65535 字 节 的 IP 数 据 报 需 要 分 片 。 回 顾 2.11 节 ， 我 们 知道 IP 层 必须 支持 的 重 

组 缓冲 区 大 小 只 有 576 字 节 ， 因 此 你 可 能 会 碰 到 接收 不 了 本 习题 发 送 的 最 大 大 小 数据 报 

的 主机 。 另 外 源 自 Berkeley 的 许多 实现 (包括 4.4BSD-Lite 2〉 有 一 个 正 负 号 缺陷 (bug)， 

它 导 致 UDP 不 能 接受 大 于 32767 字 节 的 数据 报 〈TCPv2 第 770 页 第 95 行 )。 


第 9 章 
9. 总 地 说 来 ， 整 体 上 接受 短期 请 求偶 尔 需 要 长 期 会 话 的 应 用 系统 可 以 利用 


sctp_peeloff。 举 例 来 说 ， 某 个 类 似 传 统 UDP 的 SCTP 应 用 系统 中 ， 服 务 器 通常 有 如 
短期 事务 处 理 那 般 响 应 客户 的 请 求 ， 不 过 偶尔 被 请 求 执行 长 期 的 音频 数据 传送 。 大 多 


(D 本 书 第 2 版 Stevens 先 生 可 能 据 于 早期 IPv6 规 范 得 出 UDP/IPv6 用 户 数据 最 大 为 65 487 字 节 (65535-40-8)， 第 3 版 新 


作者 尽管 一 直 在 强调 最 新 的 IPv6 规 范 , 在 UDP/IPv6 用 户 数据 的 计算 上 却 仍然 使 用 第 2 版 不 合 时 的 推导 。 详 者 对 此 
做 了 修正 。 一 一 译 者 注 
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9.4 


9.5 
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数 情 况 下 服务 器 发 送 少 数 几 个 短小 的 UDP 消 息 就 行 了 ; 然而 一 旦 音频 请 求 到 达 ， 长 期 
会 话 就 被 激活 ， 以 发 送 音频 信息 。 这 种 情形 下 可 以 使 用 该 函数 把 音频 流 剥 离 出 来 给 专 
门 的 线程 或 进程 处 理 。 

因为 SCTP 不 支持 半 关 闭 状 态 ， 造 成 当 客 户 调用 close 时 ， 关 联 终止 序列 把 来 自 服务 器 
的 任何 已 排队 但 尚未 处 理 的 未 决 数据 冲刷 掉 以 终 止 关联 ， 达 到 关闭 关联 目的 。 

对 于 一 到 一 式 套 接 字 客 户 必 须 首先 调用 sctp_connect 显 式 建 立 关 联 , 但 是 该 函数 没有 
额外 指定 数据 的 参数 ， 因 此 无 法 在 四 路 握手 的 第 三 个 分 组 中 随 COOKIE ECHO 45 
带 数据 。 对 于 一 到 多 式 套 接 字 客 户 不 比 先 建立 关联 再 发 送 数据 ， 而 是 可 以 调用 sctp_ 
senato 同 时 完成 两 者 ， 也 就 是 说 这 样 发 送 的 数据 随 COOKIE ECHO 消 息 被 了 数据 报 载 
送 到 对 端 ， 这 样 的 关联 是 隐 式 建立 的 。 

本 端 准备 与 之 建立 关联 的 对 端 在 关联 建立 阶段 能 够 发 送 回 数据 的 唯一 可 能 情形 是 它 在 
关联 建立 之 前 就 准备 好 了 数据 。 当 两 端 都 使 用 一 到 多 式 套 接 字 几 乎 同时 发 送 数据 隐 式 建 
立 关联 时 就 会 发 生 这 种 情形 。 这 种 关联 建立 称 为 INIT 冲 突 ， 详 见 [Stewart and Xie 2001 ] 
第 4 章 。 

某 些 情况 下 并 非 所 有 绑 定 的 地 址 都 可 以 传递 到 对 端 端 点 。 具 体 地 说 ， 如 果 某 个 应 用 进 
程 绑 定 的 IP 地 址 中 既 有 公用 的 又 有 私 用 的 ， 那 么 可 能 只 有 公用 地 址 可 以 与 对 端 共享 。 
另 一 个 例子 是 IPv6 的 链 路 局 部 地 址 不 一 定 能 够 与 对 端 共 享 。 
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10.1 


10.2 


10.3 


10.4 


如 果 sctp_sendmsg 调 用 返回 错误 ， 那 就 不 会 发 送 任何 消息 ， 客 户 进程 于 是 阻塞 在 
sctp_recvmsg 调 用 中 , 等 待 永远 不 会 返 送 回来 的 响应 消息 。 解决 该 问题 的 办 法 显然 是 
检查 这 个 函数 调用 的 返回 值 ， 如 果 发 现 消息 发 送出 错 ， 那 就 报告 错误 而 不 再 接收 。 

如 果 sctp_recvmsg 调 用 返回 错误 , 那 就 不 会 有 响应 消息 达到 , 客户 进程 循环 回去 继续 
尝试 发 送 消息 ， 可 能 导致 建立 新 的 关联 。 避 免 这 个 问题 的 办 法 也 是 检查 这 个 函数 调用 
的 返回 值 ， 根 据 情况 或 者 报告 错误 并 关闭 套 接 字 ， 从 而 让 服务 器 也 收 到 一 个 错误 ， 或 
者 若 错 误 是 暂时 的 则 重新 尝试 sctp_recvmsg 调 用 。 

如 果 服 务 器 在 接收 一 个 请 求 后 退出 ， 客 户 将 被 永远 挂 起 ， 等 着 决 不 会 到 来 的 消息 。 客 
户 检测 这 种 情况 的 方法 之 一 是 开启 关联 事件 。 这 样 当 服务 器 退出 时 客户 将 收 到 一 个 消 
息 ， 告 知客 户 该 关联 已 经 不 复 存在 。 客 户 可 就 此 采取 恢复 手段 ， 璧 如 说 联系 另外 一 个 
服务 器 。 方 法 之 二 是 客户 启动 一 个 定时 器 ， 过 一 段 时 间 收 不 到 响应 消息 就 取消 关联 。 
我 们 选择 800 字 节 是 为 了 试图 让 每 个 SCTP 块 处 于 单个 分 组 中 。 更 好 的 方法 也 许 是 通过 
SCTP_MAXSEG 套 接 字 选 项 确定 适合 一 个 SCTP 块 的 大 小 。 

Nagle 算 法 (由 scTP_NODELAY 套 接 字 选项 控制 ， 见 7.10 节 〉 只 会 在 选择 较 小 的 数据 传 
送 大 小 前 提 下 导致 问题 。 只 要 以 迫使 SCTP 立 即 发 送 的 大 小 写 出 数据 就 不 会 发 生 和 危害 。 
然而 如 果 给 out_sz 选 择 一 个 偏 小 的 值 ， 结 果 就 会 发 生 扭 曲 ， 暂 缓 发 送 某 些 数据 以 等 待 
来 自 对 端的 SACK。 因 此 如 果 使 用 较 小 的 大 小 值 ， 那 么 禁止 Nagle 算 法 〈 即 开启 scTP_ 
NODELAY 套 接 字 选项 ) 可 能 比较 可 取 。 

如 果 应 用 进程 在 建立 一 个 关联 之 后 改动 流 的 数目 , 那么 这 个 关联 的 实际 流 数 不 会 改变 。 
这 是 因为 流 数 的 变更 仅仅 影响 新 的 关联 ， 而 不 影响 现 有 关联 。 
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一 到 多 式 套 接 字 人 允许 隐 式 设置 关联 。 为 了 使 用 辅助 数据 更 改 某 个 关联 的 设置 ， 我 们 首 
先 需 要 使 用 senamsg 调 用 把 这 些 数据 提供 给 对 端 。 因 此 请 求 更 多 的 流 要 求 使 用 辅助 数 
据 通过 sendmsg 进 行 隐 式 关联 重新 设置 。 
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图 E-10 给 出 了 调用 gethostbyaddr 的 程序 。 


nes/hostent2.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4í( 
5 char *ptr, **pptr; 
6 char Str[INET6 ADDRSTRLEN]; 
7 struct hostent  *hptr; 
8 while (--argc > 0) í 
9 ptr = *++argv; 
10 if ( (hptr = gethostbyname(ptr)) == NULL) { 
11 err msg("gethostbyname error for host: %s: %s", 
12 ptr, hstrerror(h_errno) ); 
13 continue; 
14 } 
15 printf ("official hostname: %s\n", hptr-»h name); 
16 for (pptr = hptr->h_aliases; *pptr != NULL; pptr++) 
17 printf (" alias: %s\n", *pptr); 
18 switch (hptr->h_addrtype) { 
19 case AF_INET: 


20 #ifdef AF INET6 


case AF INET6: 


22 #endif 


pptr = hptr-»h addr list; 
for ( ; *pptr != NULL; pptr++) ( 
printf("\taddress: $sMn", 
Inet ntop(hptr-»h addrtype, *pptr, str, sizeof(str))); 


if ( (hptr - gethostbyaddr(*pptr, hptr-»h length, 
hptr->h_addrtype)) == NULL) 
printf("\t(gethostbyaddr failed) \n"); 
else if (hptr->h_name != NULL) 
printf("\tname = %s\n", hptr-»h name); 
else 
rintf("\t (no hostname returned by gethostbyaddr) \n"); 
} 


break; 


default: 
err ret("unknown address type"); 
break; 
) 
) 
exit(0); 


names/hostent2.c 
图 E-10 图 11-3 改 成 调用 gethostbyaddr 的 结果 
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本 程序 针对 只 有 一 个 IP 地 址 的 主机 运行 没有 问题 。 如 果 针 对 拥有 8 个 IP 地 址 的 一 个 主机 
运行 图 11-3 中 的 程序 ， 我 们 得 到 如 下 输出 : 


freebsd $ hostent cnn.com 

official hostname: cnn.com 
address: 64.236.16.20 
address: 64.236.16.52 
address: 64.236.16.84 
address: 64.236.16.116 
address: 64.236.24.4 
address: 64.236.24.12 
address: 64.236.24.20 
address: 64.236.24.28 


但 是 如 果 我 们 针对 同一 个 主机 运行 图 E-10 中 的 程序 ， 那 么 它 只 输出 其 中 一 个 IP 地 址 : 
freebsd $ hostent2 cnn.com 
official hostname: cnn.com 


address: 64.236.24.4 
name - wwwl.cnn.com 


问题 在 于 gethostbyname 和 gethostbyaddr 这 两 个 函数 共享 同一 个 hostent 结 构 ， 就 
如 11.18 节 开 首 部 分 所 示 。 当 我 们 的 新 程序 在 调用 gethostbyname 之 后 调用 
gethostbyaddqr 时 ， 它 重用 了 这 个 结构 以 及 由 它 指向 的 存储 区 〈 即 h_adadr_1ist 指 针 
数组 及 由 该 数组 所 指向 的 数据 ), 结果 冲 掉 了 由 gethostbyname 返 回 的 其 余 7 个 PP 地址。 
如 果 你 的 系统 不 支持 重 入 版 本 的 gethostbyaddr〔 我 们 将 在 11.19 节 讲解 )， 那 么 你 必 
须 在 调用 gethostbyaddr 之 前 复制 由 gethostbyname 返 回 的 指针 数组 以 及 由 该 数组 所 
指向 的 数据 。 

chargen 服 务 器 一 直 向 客户 发 送 数据 ， 直 到 客户 关闭 连接 为 止 〈 也 就 是 说 你 中 断 客户 
为 止 )。 

这 是 较 新 版 本 BIND 的 一 个 特性 ,不 过 POSIX 没 有 规定 这 种 处 理 方式 , 在 可 移植 程序 中 
不 能 依赖 它 。 图 E-11 给 出 了 图 11-4 中 程序 的 修改 后 版 本 。 对 主机 名 字符 串 的 测试 顺序 
很 重要 。 我 们 首先 调用 inet_pton， 因 为 它 是 一 个 快速 的 全 内 存 访 问 测试 函数 ， 用 于 
判定 主机 名 字符 串 是 不 是 一 个 有 效 的 点 分 十 进 制 数 IP 地 址 。 仅 当 这 种 测试 失败 时 我 们 
才 调 用 gethostbyname， 它 往往 牵涉 某 些 网 络 资源 ， 因 而 得 花 一 段 时 间 。 

如 果 这 个 字符 串 是 一 个 有 效 的 点 分 十 进 制 数 IP 地 址 ， 我 们 就 自行 构造 指向 这 个 IP 地 址 
的 指针 数组 (adGrs)， 它 使 得 以 后 使 用 pptr 的 循环 代码 保持 不 变 。 

既然 主机 名 字符 串 已 被 转换 成 套 接 字 地 址 结构 中 的 二 进 制 数 格式 ， 我 们 于 是 进入 使 用 
pptr 的 循环 。 我 们 把 图 11-4 中 的 memcpy 调 用 改 为 nemmove( 两 者 功能 相同 ， 不 过 后 者 
能 够 正确 处 理 源 目 的 内 存 区 重用 的 情形 ), 这 是 因为 如 果 主 机 名 字符 串 是 一 个 点 分 十 进 
制 数 IP 地 址 ， 那 么 调用 memmove 的 源 和 目的 内 存 区 是 相同 的 。 

图 E-12 给 出 了 这 个 程序 。 

我 们 使 用 由 gethostbyname 返 回 的 h_adartype 值 判定 地 址 类 型 ， 并 使 用 我 们 的 
sock_set_port 和 sock_set_addr 这 两 个 函数 ( 见 3.8 节 ) 在 合适 的 套 接 字 地 址 结构 中 
设置 端口 和 地 址 这 两 个 字段 。 

本 程序 尽管 能 够 工作 ， 却 存在 两 个 局 限 。 首 先 ， 我 们 必须 处 理 所 有 差异 ， 查 看 
h_aGdrtype 后 再 适当 地 设置 sa 和 salen。 更 好 的 办 法 是 由 某 个 库 函 数 不 仅 完成 主机 名 
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和 服务 名 的 查找 , 而 且 完 成 整个 套 接 字 地 址 结构 的 填写 (例如 11.6 节 的 getaddrinfo)。 
其 次 ， 本 程序 只 在 支持 IPv6 的 主机 上 能 够 编译 。 要 在 仅仅 支持 IPv4 的 主机 上 编译 就 得 
添加 不 少 #ifdef 伪 代码 ， 从 而 把 代码 高 得 复杂 起 来 。 





names/daytimetcpcli2.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4t 
5 int sockfd, n; 
6 char recvline[MAXLINE + 1]; 
7 struct sockaddr in servaddr; 
8 struct in_addr **pptr, *addrs[2]; 
9 struct hostent  *hp; 
10 struct servent *sp; 
11 if (argc != 3) 
12 err quit("usage: daytimetcpcli2 «hostname» «service»"); 
13 bzero(&servaddr, sizeof(servaddr)); 
14 servaddr.sin family - AF INET; 
15 if (inet pton(AF INET, argv[1], &servaddr.sin addr) -- 1) ( 
16 addrs[0] - &servaddr.sin addr; 
17 addrs[1] - NULL; 
18 pptr - &addrs[0]; 
19 ) eise if ( (hp = gethostbyname(argv[1])) != NULL) ( 
20 pptr - (struct in addr **) hp-»h addr list; 
21 ) else 
22 err quit("*hostname error for $s: $s", argv[1], hstrerror(h_errno)); 
23 if ( (n = atoi(argv[2])) > 0) 
24 servaddr.sin port - htons (n); 
25 else if ( (sp = getservbyname(argv[2], "tcp")) !- NULL) 
26 servaddr.sin port = sp-»s port; 
27 else 
28 err quit("getservbyname error for $s", argv[2]); 
29 for ( ; *pptr != NULL; pptr++) { 
30 Sockfd = Socket (AF_INET, SOCK STREAM, 0); 
31 memmove(&servaddr.sin addr, *pptr, sizeof(struct in addr)); 
32 printf("trying %s\n", Sock ntop((SA *) &servaddr, sizeof(servaddr))); 
33 if (connect(sockfd, (SA *) &servaddr, sizeof(servaddr)) == 0) 
34 break; /* success */ 
35 err ret("connect error"); 
36 close (sockfd) ; 
37 } 
38 if (*pptr == NULL) 
39 err_quit ("unable to connect"); 
40 while ( (n = Read(sockfd, recvline, MAXLINE)) > 0) { 
41 recvline[n] = 0; /* null terminate */ 
42 Fputs(recvline, stdout); 
43 } 
44 exit (0); 
45 } 

names/daytimetcpcli2.c 


图 E-11 ”允许 点 分 十 进 制 数 IP 地 址 或 主机 名 ， 端 口号 或 服务 名 的 版 本 
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names/daytimetcpcli3.c 
1 #include “unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd, n; 
6 char recvline[MAXLINE + 1]; 
7 struct sockaddr in servaddr; 
8 struct sockaddr_in6 servaddr6; 
9 struct sockaddr *sa; 
10 socklen_t salen; 
11 struct in_addr **pptr; 
12 struct hostent *hp; 
13 struct servent *sp; 
14 if (argc != 3) 
15 err guit("usage: daytimetcpcli3 «hostname» «service»"); 
16 if ( (hp = gethostbyname(argv(1])) == NULL) 
17 err_quit ("hostname error for $s: %s", argv[ij],hstrerror(h errno)); 
18 if ( (sp = getservbyname(argv[2], "tcp")) == NULL) 
19 err quit("getservbyname error for $s", argv[21); 
20 pptr - (struct in addr **) hp-»h addr list; 
21 for ( ; *pptr != NULL; pptr++) { 
22 sockfd - Socket (hp-»h addrtype, SOCK STREAM, 0); 
23 if (hp->h addrtype == AF INET) ( 
24 sa = (SA *) &servaddr; 
25 salen = sizeof(servaddr); 
26 ) else if (hp->h_addrtype == AF INET6) ( 
27 sa = (SA *) &servaddr6; 
28 salen = sizeof (servaddr6) ; 
29 } else 
30 err_quit ("unknown addrtype $à", hp->h_addrtype) ; 
31 bzero(sa, salen); 
32 sa-»sa family = hp-»h addrtype; 
33 sock set port(sa, salen, sp-»s port); 
34 Sock set, addr(sa, salen, *pptr); 
35 printf("trying %s\n", Sock ntop(sa, salen)); 
36 if (connect(sockfd, sa, salen) == 0) 
37 break; /* success */ 
38 err ret("connect error"); 
39 close (sockfd) ; 
40 } 
41 if (*pptr == NULL) 
42 err quit("unable to connect"); 
43 while ( (n = Read(sockfd, recvline, MAXLINE)) > 0) { 
44 recvline[n] - 0;/* null terminate */ 
45 Fputs(recvline, stdout); 
46 ) 
47 exit(0); 
48 ) 

names/daytimetcpcli3.c 








图 E-12 ”图 11-4 中 程序 同时 适用 于 IPv4 和 IPv6 的 修改 版 本 


11.7 


11.8 


11.9 


11.10 
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分 配 一 个 大 缓冲 区 〈 比 任何 套 接 字 地 址 结构 都 要 大 〉 并 调用 getsockname。 它 的 第 三 


个 参数 是 一 个 值 -结果 参数 ,由 它 返 回 真正 的 协议 地 址 大 小 。 不 过 这 种 方法 只 适合 具有 
固定 长 度 套 接 字 地 址 结构 的 协议 (例如 IPv4 和 IPv6)， 对 于 能 够 返回 可 变 长 度 套 接 字 地 
址 结构 的 协议 (例如 Unix 域 套 接 字 ， 第 15 章 〉 却 不 能 保证 正确 工作 。 

我 们 首先 分 配 存放 主机 名 和 服务 名 的 数组 : 

char host[NI MAXHOST], serv[NI_MAXSERV]; 

然后 在 accept 返 回 之 后 改 为 调用 getnameinfo 以 取代 sock_ntop: 


if (getnameinfo(cliaddr, len, host, NI_MAXHOST, serv, 
NI MAXSERV, NI, NUMERICHOST | NI NUMERICSERV) == 0) 
printf("connection from %s.%s\n", host, serv); 


既然 这 是 服务 器 程序 ， 我 们 指定 NI_NUMERICHOST 和 NI_NUMERICSERV 标 志 以 避免 查询 
DNS 和 查找 /etc/services 文 件 。 

第 二 个 服务 器 碰 到 的 第 一 个 问题 是 无 法 捆绑 与 第 一 个 服务 器 相同 的 端口 ， 这 是 因为 没 
有 设置 so_REUSEADDR 套 接 字 选项 。 最 容易 的 解决 办 法 是 制作 uap_server 函 数 的 一 个 
副本 ， 把 它 命名 为 udp_server_reuseaddr， 由 它 设置 这 个 套 接 字 选项 ， 再 从 服务 器 
程序 调用 这 个 新 函数 。 

当 客 户 输出 “Trying 206.62.226.35...” 时 ，gethostbyname 已 经 返回 也 地 址 。 客 户 在 
此 之 前 的 任何 停顿 是 解析 器 用 于 查找 主机 名 的 时 间 。 输 出 “ Connected to 
bsdi.kohala.com” 意 味 着 connect 已 经 返回 。 这 两 个 输出 行 之 间 的 任何 停顿 是 connect 
用 来 建立 连接 的 时 间 。 


第 12 章 


12.1 


下 面 是 相关 的 摘录 片段 (省 掉 了 登录 和 列 目 录 等 内 容 )。 主 机 freebsQ 上 的 FTP 客 户 不 
论 使 用 IPv4 还 是 IPv6 总 是 先 尝试 EPRT 命 令 ， 若 不 工作 则 退回 到 PORT 命 令 。 


freebsd % ftp aix-4 
Connected to aix-4,.unpbook.com. 
220 aix FTP server ... 


230 Guest login ok, access restrictions apply. 

ftp» debug 

Debugging on (debug-1). 

ftp» passive 

Passive mode: off; fallback to active mode: off. 
ftp» dir 

---» EPRT |11192.168.42.11/50484| 

500 'EPRT |1!192.168.42.11504841|': command not understood. 
disabling epsv4 for this connection 

---» PORT 192,168,42,1,197,52 

200 PORT command successful. 

---» LIST 

150 Opening ASCII mode data connection for /bin/ls. 


freebsd % ftp ftp.kame.net 

Trying 2001:200:0:4819:203:47ff:fea5:3085... 
Connected to orange.kame.com. 

220 orange.kame.com FTP server ... 


230 Guest login ok, access restrictions apply. 


744 
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ftp» debug 

Debugging on (debug-1). 

ftp» passive 

Passive mode: off; fallback to active mode: off. 

ftp» dir 

---» EPRT |21l3ffe:b80:3:9ad1::21504801] 

200 EPRT command successful. 

---» LIST 

150 Opening ASCII mode data connection for '/bin/ls'. 


第 13 章 


13.1 


13.2 


13.3 


13.4 


Gaemon_init 中 关闭 所 有 描述 符 的 close 调 用 也 将 关闭 由 tcp_listen 建 立 的 监听 TCP 
套 接 字 。 既 然 作 为 守护 进程 编写 的 程序 可 能 是 从 某 个 系统 启动 命令 脚本 执行 的 ， 因 此 
我 们 不 应 该 假设 任何 出 错 消 息 都 能 写 到 某 个 终端 所 有 出 错 消 息 都 应 该 使 用 syslog 登 
记 ， 即 使 诸如 命令 行 参数 无 效 之 类 的 启动 出 错 消息 也 不 例外 。 

TCP 版 本 的 echo、discard 和 chargen 服 务 器 由 inetd 派 生出 来 之 后 作为 子 进程 运行 ， 
因为 它们 需要 运行 到 客户 终止 连接 为 止 。 男 外 2 个 TCP 服 务 器 time 和 daytime 并 不 需要 
inetd 派 生子 进程 ， 因 为 它们 的 服务 极 易 实现 ( 即 取得 当前 时 间 和 日 期 ， 把 它 格 式 化 
后 写 出 , 再 关闭 连接 ), 于 是 由 ineta 直 接 处 理 . 所 有 5 个 UDP 服务 的 处 理 都 不 需要 ineta 
派生 子 进程 ， 因 为 每 个 服务 对 于 引发 它 的 任 一 客户 数据 报 所 作 的 响应 只 是 最 多 产生 一 
个 数据 报 。 因 此 这 5 个 服务 也 由 inetd 直 接 处 理 。 

这 是 一 个 众所周知 的 拒绝 服务 型 攻击 (CERT 1996a])。 来 自 端口 7 的 第 一 个 数据 报导 
致 cnargen 服 务 器 发 送 回 一 个 数据 报到 端口 7， 它 被 回 射 成 发 送 到 chargen 服 务 器 的 下 
一 个 数据 报 ， 这 样 一 直 循 环 下 去 。FreeBSD 上 实现 的 解决 办 法 是 拒绝 源 端 口 和 目的 端 
口 都 是 内 部 服务 的 外 来 数据 报 。 男 一 个 常用 的 解决 办 法 是 在 每 个 主机 上 通过 ineta 禁 
止 这 些 内 部 服务 ， 或 者 在 一 个 组 织 机 构 接 入 因特网 的 路 由 器 上 这 么 做 。 

客户 的 人 P 地 址 和 端口 取 自 由 accept 填 写 的 套 接 字 地 址 结构 。 
inetda 对 UDP 套 接 字 无 能 为 力 的 原因 是 读 入 数据 报 的 recvfrom 是 由 通过 exec 激 活 的 
真正 服务 器 而 不 是 ineta 本 身 执行 的 。 

inecd 可 以 仅仅 为 了 获取 客户 的 下地 址 和 端口 而 指定 MsG_PEEK 标 志 〈14.7 节 ) BER 
HR, BALM AGRA MAD, PPE IRS AEA. 


第 14 章 


14.1 


14.3 


如 果 未 曾 建 立 过 信号 处 理 函 数 ， 那 么 第 一 个 signal 调 用 将 返回 SITG_DFL， 而 重新 设置 
信号 处 理 函 数 的 第 二 个 signal 调 用 只 是 把 它 设 置 回 默 认 处 置 。 
下 面 是 修改 后 的 for 循 环 : 


for (; ; ) f 
if ( (n = Recv(sockfd, recvline, MAXLINE, MSG, PEEK)) == 0) 
break; /* server closed connection */ 


Ioctl(sockfd, FIONREAD, &npend); 
printf("$d bytes from PEEK, %d bytes pending\n", n, npend); 
n - Read(sockfd, recvline, MAXLINE); 


recvline[n] = 0; /* null terminate */ 
Fputs(recviine, stdout); 


14.4 
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数据 仍然 输出 ， 因 为 掉 出 main 函 数 末 尾 等 同 于 从 这 个 函数 返回 ， 而 main 函 数 又 是 由 C 
启动 例 程 如 下 调用 的 : 
exit(main(argc, argv)); 


因此 exit 仍 然 被 调用 ， 标 准 LO 清 扫 例 程 也 同样 被 调用 。 


第 15 章 


15.1 


15.2 


15.3 


15.5 


unlink 从 文件 系统 中 删除 了 路 径 名 ， 此 后 客户 调用 connect 就 会 失败 。 服 务 器 的 监听 
套 接 字 不 受 影响 ， 不 过 unl1ink 之 后 没有 客户 能 够 成 功 connect 到 其 上 。 
即使 路 径 名 仍然 存在 , 客户 也 无 法 connect 到 服务 器 , 这 是 因为 connect 成 功 要 求 当 前 
有 一 个 打开 着 的 绑 定 了 那个 路 径 名 的 Unix 域 套 接 字 〈15.4 节 )。 

当 服 务 器 通过 调用 sock_ntop 显 示 客 户 的 协议 地 址 时 ， 输 出 信息 将 是 “datagram from 
(no pathname bound)”( 数 据 报 来 自 〈 无 路 径 名 绑 定 ))， 因 为 默认 情况 下 客户 的 套 接 字 
上 不 绑 定 任何 路 径 名 。 

解决 办 法 之 一 是 在 udp_client 和 udp_connect 中 明确 检查 是 否 为 一 个 Unix 域 套 接 字 ， 
若是 则 调用 bina 给 它 捆绑 一 个 临时 路 径 名 。 这 么 做 把 协议 相关 处 理 置 于 原本 所 属 的 库 
函数 中 ， 而 不 是 置 于 我 们 的 应 用 程序 中 。 

尽管 我 们 人 迫使 服务 器 程序 为 它 的 26 字 节 应 答 逐 个 字 节 调用 write， 客 户 程序 中 放置 的 
sleep 调 用 还 是 保证 在 调用 read 之 前 所 有 26 个 分 节 都 接收 到 ， 使 得 单个 read 调 用 返回 
完整 的 应 答 。 这 个 例子 只 是 为 了 (再 次 ) 验证 TCP 是 一 个 没有 内 在 记录 边界 的 字 节 流 。 
要 使 用 Unix 域 协议 ， 我 们 以 2 个 命令 行 参数 /local (或 /unix) 和 /tmp/daytime (或 
你 想 使 用 的 任何 其 他 临时 路 径 名 ) 启动 客户 和 服务 器 。 情 况 没 有 变化 : 每 次 运行 客户 
程序 由 reaG 返 回 的 都 是 26 个 字 节 。 

服务 器 为 每 个 send 指 定 MSG_EOR 标 志 之 后 逐个 发 送 的 每 个 字 节 都 被 认为 是 一 个 逻辑 记 
录 ， 客 户 每 次 调用 reagd 所 返回 的 也 将 是 1 个 字 节 。 这 里 碰巧 的 是 源 自 Berkeley 的 实现 默 
认 支 持 MSG_EOR 标 志 。 不 过 这 一 点 没有 写 在 正式 文档 中 ， 在 生产 性 代码 中 不 应 该 使 用 。 
我 们 这 儿 使 用 它 作 为 表现 字 节 流 协议 和 面向 记录 协议 之 差异 的 一 个 例子 。 从 实现 角度 
看 ,每 个 输出 操作 都 进入 一 个 内 存 缓冲 区 (mbuf)，MsG_EOR 标 志 由 内 核 随 mbuf 从 发 送 
套 接 字 转移 到 接收 套 接 字 的 接收 缓冲 区 维持 在 mbuf 中 。 调 用 read 时 MSG_EOR 标 志 仍 然 
依附 在 每 个 mbuf 上， 因此 通用 内 核 read 例 程 ( 它 支持 MSsG_EOR 标 志 ， 因 为 一 些 协 议 使 
HE) 独自 返回 每 个 字 节 。 如 果 我 们 改 用 recvmsg 取 代 read， 它 将 在 每 次 返回 一 个 字 
节 时 还 在 msg_f1lags 成 员 中 返回 MsG_EOR 标 志 。 这 个 特性 并 不 适用 于 TCP， 因为 发 送 端 
TCP 从 来 不 看 所 发 送 mbuf 中 的 MSG_EOR 标 志 ， 而 且 即 使 它 看 了 ， 它 也 无 法 在 TCP 首 部 中 
把 这 个 标志 传递 给 接收 端 TCP。( 感 谢 Matt Thomas 指 出 这 个 没有 写 在 文档 中 的 “特性 ”。》 
图 E-13 给 出 了 这 个 程序 的 实现 。 








debug/backlog.c 


1 #include "unp.h" 


2 #define PORT 9999 
3 #define ADDR 9*127.0.0.1* 
4 tdefine MAXBACKLOG 100 


图 E-13 ”确定 不 同 的 packiog 值 对 应 的 真正 已 排队 连接 数 
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5 /* globals */ 
6 struct sockaddr in serv; 
7 pid t pid; /* of child */ 
8 int pipefd[2]; 
9 #define pfd pipefd[1} /* parent's end */ 
10 #define cfd pipefd[0] /* child's end */ 
11 /* function prototypes */ 
12 void do, parent (void); 
13 void do child(void); 
14 int 
15 main(int argc, char **argv) 
16 ( 
17 if (argc !- 1) 
18 err quit("usage: backlog"); 
19 Socketpair(AF UNIX, SOCK STREAM, 0, pipefd); 
20 bzero(&serv, sizeof(serv)); 
21 serv.sin family = AF INET; 
22 serv.sin port = htons (PORT); 
23 Inet pton(AF INET, ADDR, &serv.sin_addr); 
24 if ( (pid = Fork()) == 0) 
25 do child(); 
26 else 
27 Go, parent () ; 
28 exit(0); 
29 ) 
30 vcid 
31 parent alrm(int signo) 
32 ( 
33 return; /* just interrupt blocked connect{) */ 
34 } 
35 void 
36 do parent (void) 
37 ( 
38 int backlog, j, k, junk, fd[MAXBACKLOG + 1]; 
39 Close(cfd); 
40 Signal(SIGALRM, parent alrm); 
41 for (backlog = 0; backlog <= 14; backlog++) ( 
42 printi("backlog = %d: *, backlog); 
43 Write(pfd, &backlog, sizeof(int)); /* tell child value */ 
44 Read(pfd, &junk, sizeof(int)); /* wait for child */ 
45 for (i = 1; j <= MAXBACKLOG; j++) ( 
46 fd[j] = Socket (AF_INET, SOCK STREAM, 0); 
47 alarm(2); 
48 if (connect(fd[jl], (SA * ) &serv, sizeof(serv)) < 0) { 
49 if (errno != EINTR) 
50 err sys("connect error, j = $d", j); 
51 printf("timeout, %d connections completed\n", j-1); 
52 for (k = 1; k <= j; k++) 
53 Ciose(fd[k]); 





图 E-13 (5D 
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break; /* next value of backlog */ 


54 

55 ) 

56 alarm(0); 

57 ) 

58 if (j » MAXBACKLOG) 

59 printf ("$d connections?\n", MAXBACKLOG) ; 

60 } 

61 backlog = -1; /* tell child we're all done */ 
62 Write(pfd, &backlog, sizeof(int)); 

63 } 

64 void 

65 do child(void) 

66 { 

67 int listenfd, backlog, junk; 

68 const int on = 1; 

69 Close(pfd); 

70 Read(cfd, &backlog, sizeof(int)); /* wait for parent */ 

71 while (backlog »- 0) ( 

72 listenfd - Socket(AF INET, SOCK STREAM, 0); 

73 Setsockopt(listenfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
74 Bind(listenfd, (SA *) &serv, sizeof(serv)); 

75 Listen(listenfd, backlog); /* start the listen */ 

76 Write(cfd, &junk, sizeof(int)); /* tell parent */ 

77 Read(cfd, &backlog, sizeof (int)); /* just wait for parent */ 
78 Close (listenfd);/* closes all queued connections, too */ 
79 } 

80 } 


debug/backlog.c 
图 E-13 (8D 
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16.1 


16.2 


16.3 


套 接 字 描述 符 是 在 父子 进程 之 间 共 享 的 ， 因 此 它 的 引用 计数 为 2。 要 是 父 进程 调用 
close， 那 么 这 只 是 把 该 引用 计数 由 2 减 为 1， 而 且 既 然 它 仍然 大 于 0，FIN 就 不 发 送 。 

这 就 是 使 用 shutdown 函 数 的 男 一 个 理由 : 即使 描述 符 的 引用 计数 仍然 大 于 0, FIN 也 被 
强迫 发 送出 去 。 

父 进 程 将 继续 写 出 到 已 经 接收 FIN 的 套 接 字 。 它 发 送 给 服务 器 的 第 一 个 分 节 将 引发 RST 
响应 。 此 后 的 那个 write 调 用 将 导致 内 核 像 我 们 在 5.12 节 讨论 过 的 那样 向 父 进程 发 送 
SIGPIPE 信 号 。 

当 子 进程 调用 getppid 以 向 父 进 程 发 送 sIGTERM 信 号 时 , 所 返回 的 进程 ID 将 是 1 即 init 
进程 ， 它 是 所 有 孤儿 进程 的 继父 (也 就 是 说 它 继承 所 有 其 父 进 程 在 子 进 程 仍 在 运行 时 
就 终止 的 那些 子 进程 )。 子 进程 试图 向 init 进 程 发 送 这 个 信号 ， 但 是 没有 足够 的 权限 。 
然而 如 果 这 个 客户 程序 有 机 会 以 超级 用 户 特 权 运 行 ， 从 而 允许 它 向 init 发 送信 号 ， 那 
么 在 发 送 该 信号 之 前 应 该 检测 getppia 的 返回 值 。 

如 果 去 掉 这 两 行 ，select 就 被 调用 。 不 过 select 调 用 将 立即 返回 ， 因 为 连接 建立 之 后 
套 接 字 是 可 写 的 。 这 个 测试 加 goto 语 句 只 是 避免 不 必要 地 调用 select。 

如 果 服 务 器 在 accept 调 用 返回 之 后 立即 发 送 数据 ， 而 当 三 路 握手 的 第 二 个 分 节 到 达 以 
在 客户 端 完 成 连接 的 时 候 客 户主 机 却 比 较 忙 〈 图 2-5)， 那 么 来 自 服务 器 的 数据 可 能 在 
客户 的 connect 调 用 返回 之 前 到 达 。 举例 来 说 ，SMTP 服 务 器 在 未 从 中 读 之 前 就 立即 往 
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一 个 新 建立 的 连接 中 写 ， 以 便 给 客户 发 送 一 个 问候 消息 。 


第 17 章 
17.1 无 关 紧 要 ， 因 为 图 17-2 中 union 的 前 3 个 成 员 都 是 套 接 字 地 址 结构 。 
第 18 章 


18.1 sdGi_nlien 成 员 将 是 5，sd1_alen 成 员 将 是 8。 整 个 sockaddr_31 结 构 需要 21 个 字 节 , 在 
32 位 体系 结构 上 则 向 上 会 入 成 24 个 字 节 (TCPv2 第 89 页 )。 

18.2 ”内 核 的 响应 绝 不 发 送 到 这 个 套 接 字 。 So_USELOOPBACK 套 接 字 选项 确定 内 核 是 否 把 应 答 
发 送 给 发 送 进 程 ，TCPv2 第 649 一 650 页 讨论 了 这 一 点 。 它 的 默认 设置 是 开启 ， 因 为 大 
多 数 进程 需要 这 些 应 答 。 禁 止 该 选项 将 防止 内 核 把 应 答 发 送 给 发 送 进程 。 


第 20 章 


20.1 ”如 果 你 接收 到 许多 应 答 ， 它 们 每 次 到 达 的 先后 顺序 不 应 该 都 一 样 。 不 过 发 送 主机 本 身 
的 应 答 通 常 是 第 一 个 ， 因 为 其 数据 报 的 来 往 并 不 出 现在 真正 的 网 络 上 。 

20.2 ”FreeBSD 上 当 信 和 号 处 理 函 数 往 管 道中 写 入 一 个 空 字 节 并 返回 之 后 ，select 返 回 EINTR。 
select 再 次 被 调用 时 返回 管道 的 可 读 条 件 。 


第 21 章 


21.1 我 们 运行 该 程序 得 不 到 任何 输出 。 为 了 防止 进程 偶尔 收取 并 非 期 待 的 多 播 数 据 报 ， 内 
核 不 把 按 收 到 的 多 播 数据 报 递送 给 未 曾 在 其 上 执行 过 任何 多 播 操 作 (譬如 加 入 某 个 组 ) 
的 目的 地 套 接 字 。 这 里 发 送 的 那个 UDP 数据 报 的 目的 地 址 是 224.0.0.1， 它 是 所 有 具备 
多 播 能 力 的 节点 都 必须 参加 的 所 有 主机 组 。 该 UDP 数据 报 作 为 一 个 多 播 以 太 网 帧 发 
送 ， 因 而 所 有 具备 多 播 能 力 的 节点 都 接收 到 它 ， 因 为 它们 都 属于 这 个 组 。 然 而 内 核 丢 
弃 了 接收 到 的 数据 报 ， 因 为 捆绑 了 daytime 端 口 的 那个 进程 〈 通 常 就 是 inetd) 未 曾 设 
置 任何 多 播 选项 。” 


O 本 书 第 2 版 解答 如 下 。 我 们 运行 该 程序 的 输出 如 下 : 


solaris % udpcli05 224.0.0.1 

hi 

from 206.62.226.34: Thu Jun 19 17:28:32 1997 
from 206.62.226.43: Thu Jun 19 17:28:32 1997 
from 206.62.226.42: Thu Jun 19 17:28:32 1997 
from 206.62.226.40: Thu Jun 19 17:28:32 1997 
from 206.62.226.35: Thu Jun 19 17:28:32 1997 


5 个 给 出 响应 的 主机 运行 的 操作 系统 有 AIX、BSD/OS、Digital Unix 和 Linux。 没 有 给 出 响应 却 具 有 多 播 能 力 的 仅 
有 节点 是 运行 Solaris 2.5 的 主机 和 Cisco 路 由 器 。 

这 里 发 送 的 那个 UDP 数据 报 的 目的 地 址 是 224.0.0.1， 它 是 所 有 具备 多 播 能 力 的 节点 都 必须 参加 的 所 有 主机 组 。 
该 UDP 数据 报 作为 一 个 多 播 以 太 网 帧 发 送 , 因而 所 有 具备 多 播 能 力 的 节点 都 接收 到 它 , 因为 它们 都 属于 这 个 组 。 
给 出 响应 的 主机 都 把 接收 到 的 数据 报 传 递 给 UDP 版 本 的 daytime 服 务 器 《 它 通 常 是 inetd 的 一 部 分 ) ， 而 不 管 其 套 
接 字 是 否 已 经 加 入 所 有 主机 组 。 然 而 Solaris 的 实现 却 要 求 目的 地 套 接 字 必须 加 入 所 有 主机 组 才能 接收 该 数据 报 。 
本 例子 表明 决 不 是 设计 来 响应 多 播 数据 报 的 UDP 程序 也 能 接收 到 多 播 数据 报 。 我 们 在 第 20 章 看 到 过 这 个 daytime 
例子 发 生 同 样 的 事情 : 决 不 是 设计 来 响应 广播 数据 报 的 UDP 程 序 也 能 接收 广播 数据 报 。 一 一 译 者 注 


MRE 精 选 习题 答案 749 


21.2 ”图 E-14 给 出 了 调用 bind 捆 绑 多 播 地 址 和 端口 0 的 main 函 数 简单 修改 版 本 。 
不 幸 的 是 ， 我 们 尝试 运行 本 程序 的 3 个 系统 (FreeBSD 4.8、MacOS X 和 Linux 2.4.7) 都 
允许 如 此 bina， 随 后 发 送 的 UDP 数据 报 具 有 多 播 源 耻 地 址 。? 

21.3 在 支持 多 播 的 主机 aix 上 这 么 做 的 输出 如 下 : 


aix % ping 224.0.0.1 

PING 224.0.0.1: 56 data bytes 

64 bytes from 192.168.42.2: icmp seq-0 tt1-255 time=0 ms 

64 bytes from 192.168.42.1: icmp seq-0 tti-64 time-1 ms (DUP!) 

^c 

----224.0.0.1 PING Statistics---- 

1 packets transmitted, 1 packets received, «1 duplicates, 0$ packet loss 
round-trip min/avg/max - 0/0/0 ms 


图 1-16 中 右 侧 以 太 网 上 两 个 主机 都 给 出 响应 。” 
为 了 防护 特定 拒绝 服务 攻击 ， 某 些 系 统 上 默认 情况 下 对 于 广播 或 多 播 ping 不 给 出 响应 。 为 了 让 主 
机 freebsd 给 出 响应 ， 我 们 必须 使 用 如 下 命令 进行 配置 : 


freebsd % sysctl net.inet.icmp.bmcastecho=1 
21.5” 值 1073741824 转 换 成 浮 点 数 并 除 以 4294967296 得 到 0.250。 F F 01100000048. 2250000, 


@ 本 书 第 2 版 接着 解答 如 下 。 不 幸 的 是 ， 我 们 尝试 运行 本 程序 的 3 个 系统 《BSD/OS、Digital Unix 和 Solaris 2.5) 都 
允许 如 此 bina， 随 后 发 送 的 UDP 数据 报 具 有 多 播 源 卫 地址。 给 出 响应 的 那 5 个 系统 〈 跟 上 一 道 习题 一 样 ) 都 在 应 
答 中 对 换 源 趾 地 址 和 目的 下 地 址 ， 结 果 所 有 5 个 应 答 都 是 多 播 数据 报 ! 接收 了 这 些 应 答 的 具有 多 播 能 力 的 客户 主 
机 倒 没 对 它们 过 度 反应 , 因为 这 些 应 答 的 目的 端口 就 是 最 初 搁 绑 多 播 地 址 时 由 客户 主机 的 内 核 选 定 的 临时 端口 ， 
当时 该 端口 没有 绑 定 在 任何 套 接 字 上 。 对 于 多 揪 UDP 数 据 报 ，ICMP 不 产生 端口 不 可 达 消 息 。 一 一 译 者 注 

O 本 书 第 2 版 解答 如 下 。 在 支持 多 播 的 主机 solaris 上 这 么 做 的 输出 如 下 : 


solaris $ ping 224.0.0.1 

PING 224.0.0.1: 56 data bytes 

64 bytes from solaris.kohala.com (206.62.226.33): icmp_seq=0. time-4. ms 
64 bytes from linux.kohala.com(206.62.226.40): icmp seq-0. time=9. ms 
64 bytes from aix.kohala.com (206.62.226.43): icmp seq-0. time-11. ms 
64 bytes from bsdi.kohala.com (206.62.226.35): icmp_seq=0. time-13. ms 
64 bytes from alpha.kohala.com (206.62.226.42): icmp seq-0. time-15. ms 
64 bytes from sunos5.kohala.com (206.62.226.36): icmp seq-0. time-17. ms 
64 tes from bsdi2.kohala.com (206.62.226.34): icmp seq-0. time-54. ms 
64 bytes from gw.kohala.com (206.62.226.62): icmp seq-0. time-75. ms 
^? 

----224.0.0.1 PING Statistics---- 

1 packets transmitted, 8 packets received, 8.00 times amplification 
round-trip (ms) min/avg/max - 4/24/75 

solaris $ ping 224.0.0.2 

PING 224.0.0.2: 56 data bytes 

64 bytes from bsdi.kohala.com (206.62.226.35): icmp seq-0. time-3. ms 
64 bytes from gw.kohala.com (206.62.226.62): icmp seq-0. time-24. ms 
^? 

----224.0.0.2 PING Statistics ---- 

1 packets transimitted, 2 packets received, 2.00 times amplification 
round-trip (ms) min/avg/max - 3/13/24 


对 于 所 有 主机 组 ， 本 书 第 2 版 图 1-16 中 顶部 以 太 网 上 除 没 有 多 播 能 力 的 unixware 外 所 有 主机 都 给 出 响应 〈 当 然 
包括 发 送 主机 本 身 )。 对 于 所 有 路 由 器 组 ， 我 们 期 待 bsdi 给 出 响应 ， 因 为 它 是 所 在 子 网 上 的 多 播 路 由 器 ， 有 一 
个 通 往 MBone (B.245) 的 隧道 ， 且 运行 着 mrouted。 路 由 器 gw 也 给 出 响应 ， 不 过 它 并 不 扮演 多 播 路 由 器 角色 。 

一 一 译 者 注 
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它 以 微 秒 为 单位 就 是 1/4 秒 。 
最 大 的 整数 小 数 部 分 是 4294967295， 它 除 以 4294967296 得 到 0.99999999976716935634。 
再 乘 以 1000000 并 截 成 整数 得 到 999999， 它 就 是 最 大 的 微 秒 数 。 








mcast/udpcli06.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
4 { 
5 int sockfd; 
6 socklen_t salen; 
7 struct sockaddr *cli, “serv; 
8 if (argc !- 2) 
9 err quit("usage: udpcli06 «IPaddress»"); 
10 sockfd - Udp client(argv[1], "daytime", (void **) &serv, &salen); 
11 cli = Malloc(salen); 
12 memcpy (cli, serv, salen); /* copy socket address struct */ 
13 sock set port(cli, salen, 0); /* and set port to 0 */ 
14 Bind(sockfd, cli, salen); 
15 dg cli(stdin, sockfd, serv, salen); 
16 exit(0); 
17 ) 
———— ——— mcast/udpcli06.c 
图 E-14 ”捆绑 多 播 地 址 的 UDP 客户 程序 main 函 数 
第 22 章 

22.1 我 们 已 经 知道 sock_ntop 使 用 自己 的 静态 缓冲 区 存放 结果 。 如 果 我 们 在 同一 个 printf 
中 作为 参数 调用 它 两 次 ， 第 二 次 调用 就 会 履 写 第 一 次 调用 的 结果 。 

222 ”是 的 ， 如 果 应 答 中 包含 0 个 字 节 的 用 户 数据 的 话 〈 也 就 是 仅 有 一 个 har 结 构 )。 

223 ”由 于 select 并 不 修改 指定 其 时 间 限 制 的 rimeval 结 构 ， 因 此 你 必须 记 下 第 一 个 分 组 的 
发 送 时 刻 〈 它 已 由 rtt_ts 以 微 秒 为 单位 返回 )。 当 select 返 回 套 接 字 的 可 读 条 件 时 ， 
记 下 当前 时 刻 ， 如 果 需 要 再 次 调用 recvmsg， 那 就 给 select 计 算 新 的 超时 值 。 

224 ”常用 的 技巧 就 如 我 们 在 22.6 节 所 做 的 那样 给 每 个 接口 地 址 创建 一 个 套 接 字 ， 然 后 就 从 
请 求 到 达 的 那个 套 接 字 发 送 相应 的 应 答 。 

22.5” 既 不 给 出 主机 名 参数 也 不 设置 AIT_PASSIVE 标 志 就 调用 getaddrinfo 会 导致 它 假定 获 
取 本 地 主机 地 址 0::1 (IPv6) 或 127.0.0.1 (IPv4) 的 信息 。 回 顾 一 下 ， 我 们 知道 在 主机 
支持 IPv6 的 前 提 下 ，getaddrinfo 先 于 IPv4 套 接 字 地 址 结构 返回 IPv6 套 接 字 地 址 结构 。 
如 果 主 机 同时 支持 这 两 个 协议 ， 那 么 udp_client 中 的 socket 调 用 尝试 将 以 地 址 族 为 
AF_INET6 的 首次 尝试 成 功 告终 。 

图 E-15 是 这 个 程序 的 协议 无 关 版 本 。 
advio/udpserv04.c 
1 #include "unpifi.h" 
2 void mydg echo(int, SA *, sockien t); 
3 int 


图 E-15 ”22.6 节 中 程序 的 协议 无 关 版 本 
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main(int argc, char **argv) 


{ 
int sockfd, family, port; 
const int on = 1; 
pid_t pid; 


socklen_t salen; 
struct sockaddr *sa, *wild; 
struct ifi_info *ifi, *ifihead; 


if (argc == 2) 

sockfd = Udp_client (NULL, argv[1], (void **) &sa, &salen); 
else if {argc == 3) 

sockfd = Udp client(argv[1], argv[2], (void **) &sa, &salen); 
eise 

err quit("usage: udpserv04 [ «host» ] «service or port»"); 
family = sa-»sa family; 
port = sock get, port(sa, salen); 
Close (sockfd); /* we just want family, port, salen */ 


for (ifihead - ifi - Get ifi info(family, 1); 
ifi !- NULL; ifi = ifi-»ifi next) ( 


/* bind unicast address */ 
Sockfd - Socket(family, SOCK DGRAM, 0); 
Setsockopt (sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 


Sock set port(ifi-»ifi addr, salen, port); 
Bind(sockfd, ifi-»ifi addr, salen); E 
printf ("bound %s\n", Sock ntop(ifi-»ifi addr, salen)); 


if ( (pid = Fork()) -- 0) ( /* child */ 
mydg echo(sockfd, ifi-»ifi, addr, salen); 
exit(0); /* never executed */ 


) 


if (ifi-»ifi flags & IFF BROADCAST) { 
/* try to bind broadcast address */ 
Sockfd - Socket(family, SOCK DGRAM, 0); 


Setsockopt(sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 


SOCK set, port(ifi-»ifi brdaddr, salen, port); 
if (bind(sockfd, ifi->ifi_brdaddr, salen) < 0) ( 
if (errno -- EADDRINUSE) ( 
printf("EADDRINUSE: %s\n", 
Sock_ntop(ifi->ifi_brdaddr, salen)); 
Close(sockfd); 
continue; 
) else 
err sys("bind error for $s", 
Sock ntop(ifi-»ifi brdaddr, salen)); 
} 
printf {"bound %s\n", Sock_ntop(ifi->ifi_brdaddr, salen)); 


if ( (pid = Fork()) == 0) { /* child */ 
mydg echo(sockfd, ifi-»ifi brdaddr, salen); 
exit(0); /* never executed */ 


FAE-15 (4) 
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55 /* bind wildcard address */ 
56 Sockfd = Socket (family, SOCK, DGRAM, 0); 
57 Setsockopt (sockfd, SOL SOCKET, SO REUSEADDR, &on, sizeof(on)); 
58 wild - Malloc(salen); 
59 memcpy (wild, sa, salen); /* copy family and port */ 
60 Sock set wild(wild, salen); 
61 Bind(sockfd, wild, salen); 
62 printf ("bound $s\n", Sock ntop(wild, salen)); 
63 if ( (pid = Fork()) == 0) (/* child */ 
64 mydg echo(sockfd, wild, salen); 
65 exit(0); /* never executed */ 
66 ) 
67 exit(0); 
68 ) 
69 void 
70 mydg echo(int sockfd, SA *myaddr, socklen, t salen) 
71 ( 
72 int n; 
73 char mesg [MAXLINE]; 
74 Socklen t len; 
75 struct sockaddr *cli; 
76 cli = Malloc(salen); 
77 fortigi 
78 len = salen; 
79 n = Recvfrom(sockfd, mesg, MAXLINE, 0, cli, &len); 
80 printf("child $d, datagram from %s", getpid(), Sock ntop(cli, len)); 
81 printf(", to $sMn", Sock ntop(myaddr, salen)); 
82 Sendto(sockfd, mesg, n, 0, cli, len); 
83 } 
84 ) 


第 24 章 


24.1 


24.2 





advio/udpserv04.c 


是 的 。 第 一 个 例子 中 的 2 个 字 节 是 随 单个 紧急 指针 发 送 的 , 该 指针 指向 的 是 b 后 面 的 字 节 。 
第 二 个 例子 〈 两 个 函数 调用 ) 中 首先 发 送 的 是 a 以 及 指向 它 之 后 字 节 的 紧急 指针 ， 接 者 
以 另外 一 个 TCP 分 节 发 送 的 是 p 和 指向 它 之 后 字 节 的 另外 一 个 紧急 指针 。 
图 E-16 给 出 了 使 用 pol1 的 版 本 。 
oob/teprecv03p.c 
1 finclude “unp.h" 
2 int 


3 main(int argc, char **argv) 


a oO Uu 心 
~ 


int listenfd, connfd, n, justreadoob = 0; 
char buff[100]; 
Struct pollfd pollfd[1]; 


if (argc == 2) 


图 E-16 ”以 pol1 代 替 select 的 图 24-6 中 程序 的 修改 版 本 


一 UL 
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listenfd = Tcp listen(NULL, argv[1], NULL); 
else if (argc -- 3) 

listenfd - Tcp listen(argv[1], argv[2], NULL); 
else 

err quit("usage: tcprecv03p Í «host» ) <port#>"); 


connfd = Accept(listenfd, NULL, NULL); 


pollfd[0].fd - connfd; 
pollfd(0].events - POLLRDNORM; 
for (; 3) ( 
if (justreadoob == 0) 
pollfd[0].events |= POLLRDBAND; 


Poll(pollfd, 1, INFTIM); 


if lpollfd[0].revents & POLLRDBAND) { 
n = Recv(connfd, buff, sizeof(buff)-1, MSG OOB); 
buff(n] = 0; /* null terminate */ 
printf("read %d OOB byte: $sWn", n, buff); 
justreadoob - 1; 
pollfd[0].events &- -POLLRDBAND; /* turn bit off */ 
) 


if (pollfd[0].revents & POLLRDNORM) ( 


if ( (n = Read(connfd, buff, sizeof(buff)-1)) == 0) { 
printf("received EOF\n"); 
exit (0); 

) 

buff[n] = 0; /* null terminate */ 


printf("read &d bytes: %s\n", n, buff); 
justreadoob = 0; 





—— — —— — — ——oob/tcprecv0Ü3p.c 
图 E-16 (4D 


第 25 章 


25.1 


这 样 的 改动 引入 了 一 个 错误 。 问 题 在 于 nqueue 是 在 处 理 数组 元 素 ag[iget] 之 前 递减 
的 ， 导 致 信号 处 理 函 数 有 可 能 把 新 的 数据 报 从 套 接 字 读 入 到 这 个 数组 元 素 。 


第 26 章 


26.1 


使 用 fork 的 例子 将 会 使 用 101 个 描述 符 ， 其 中 1 个 是 监听 套 接 字 描 述 符 ， 其 余 100 个 是 
已 连接 套 接 字 描 述 符 。 不 过 101 个 进程 (1 个 父 进程 ，100 个 子 进程 ) 的 每 一 个 只 打开 着 
一 个 描述 符 (忽略 任何 其 他 描述 符 , 例如 服务 器 不 是 守护 进程 时 的 标准 输入 )。 然 而 线 
程 化 的 服务 器 是 单个 进程 中 有 101 个 描述 符 ， 每 个 线程 (包括 主线 程 ) 处 理 其 中 一 个 。 
TCP 连 接 终止 序列 的 最 后 2 个 分 节 ( 服 务 器 的 FIN 和 客户 对 于 该 FIN 的 ACK) 将 不 会 交 
换 。 这 使 得 连接 的 客户 端 一 直 处 于 FIN_WAIT 2 状态 (图 2-4)。 源 自 Berkeley 的 实现 在 
客户 端 保持 这 种 状态 超过 11 分 钟 时 就 会 超时 断 连 〈TCPv2 第 825 一 827 页 )。 服 务 器 还 可 
能 〈 最 终 ) 耗 尽 描述 符 。 
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这 个 消息 应 该 在 主线 程 已 从 套 接 字 读 入 EOF 而 另 一 个 线程 却 还 在 运行 时 显示 。 这 么 做 
的 一 个 简单 方法 是 声明 名 为 Gone 且 初始 化 为 0 的 另 一 个 外 部 变量 。 线 程 copyto 在 返回 
之 前 把 该 变量 设置 成 1。 主 线程 检查 该 变量 ， 如 果 其 值 为 0 就 显示 这 个 出 错 消息 。 既 然 
设置 该 变量 的 线程 只 有 一 个 ， 因 而 没有 任何 同步 的 必要 。 


第 27 章 


27.1 
27.2 
27.3 


27.4 
27.5 


没有 变化 ， 所 有 系统 都 是 邻居 ， 因 此 严格 的 源 路 径 等 同 于 宽松 的 源 路 径 。 

我 们 会 在 缓冲 区 的 未 尾 放 一 个 EOL〔 值 为 0 的 单个 字 节 )。 

ping 创 建 的 是 一 个 原始 套 接 字 ( 第 28 章 )， 因 此 能 够 获取 使 用 recvfrom 读 入 的 每 个 数 
据 报 的 完整 IP 首 部 ， 包 括 任 何 IP 选 项 在 内 。 

因为 xloginq 是 由 inetaG 激 活 的 〈13.5 节 )， 而 描述 符 0 正 是 通达 客户 的 套 接 字 。 

问题 在 于 setsockopt 的 第 五 个 参数 以 指向 长 度 的 指针 取代 长 度 本 身 。 这 个 缺陷 可 能 是 
在 开始 使 用 ANSI C 原 型 时 修正 的 。 

这 个 缺陷 结果 是 无 害 的 ， 因为 正如 我 们 所 提 ， 禁 止 TP_oPTIONS 套 接 字 选 项 既 可 以 指定 
一 个 空 指针 作为 第 四 个 参数 , 也 可 以 使 用 值 为 0 的 第 五 个 (长度) 参数 (TCPv2 第 269 页 )。 
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28.1 


28.2 


28.3 


28.4 


IPv6 首 部 中 的 版 本 字段 和 下 一 个 首部 字段 是 无 法 得 到 的 。 净 荷 长 度 字 段 或 者 作为 某 个 输 
出 函数 的 一 个 参数 ， 或 者 作为 来 自 某 个 输入 函数 的 返回 值 总 是 可 得 到 ， 但 是 如 果 需 要 特 
大 净 荷 选项 ， 那 么 真正 的 选项 本 身 应 用 进程 是 得 不 到 的 。 分 片 首 部 应 用 进程 也 得 不 到 。 
最 终 客户 的 套 接 字 接 收 缓冲 区 会 被 填 满 ， 导 致 作为 服务 器 的 icmpa 守 护 进程 的 write 
调用 阻塞 。 我 们 不 希望 发 生 这 种 情况 ， 因 为 它 使 得 icmpd 在 任何 套 接 字 上 都 停止 处 理 
新 的 数据 。 最 容易 的 解决 办 法 是 让 icmpa 把 它 跟 客 户 的 Unix 域 连接 的 本 地 端 设 置 成 非 
阻塞 式 。icmpa 然 后 必须 改 为 调用 write 以 取代 它 的 包 囊 函数 write， 并 仅仅 忽略 
EWOULDBLOCK 错 误 。 

Wi 自 Berkeley 的 内 核 默 认 人 允许 在 原始 套 接 字 上 的 广播 (TCPv2 第 1057 页 ) 。 
SO_BROADCAST 套 接 字 选项 只 有 UDP 套 接 字 才 需 指 定 。 

我 们 的 程序 既 不 检查 多 播 地 址 ， 也 不 设置 TP_MULTICasT_TF 套 接 字 选 项 ， 因 此 内 核 可 
能 通过 搜索 224.0.0.1 的 路 由 表 项 选 定 外 出 接口 。 我 们 也 不 设置 TP_MULTICAST_TTL 套 接 
字 选 项 ， 因 此 它 默 认 成 1， 这 是 合理 的 。 
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29.1 


这 个 标志 表示 跳 转 缓冲 区 已 由 sigsetjmp 设 置 〈 图 29-10)。 尽 管 这 个 标志 看 似 多 余 ， 
但 是 在 信号 处 理 函 数 建立 之 后 和 调用 sigsetjmp 之 前 ，SIGALRM 信 号 被 递交 的 机 会 
还 是 存在 的 。 即 使 程序 本 身 不 会 导致 产生 该 信号 ， 它 也 可 能 以 其 他 方式 产生 ， 备 如 使 
用 ki1l1 命 令 。 
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30.1 


父 进程 保持 监听 套 接 字 打 开 着 是 为 以 后 需要 fork 和 额外 的 子 进程 而 做 准备 (这 是 对 于 现 
行 代码 的 一 种 改进 )。 
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302 ”是 的 ， 数 据 报 套 接 字 能 够 取代 字 节 流 套 接 字 用 于 传递 描述 符 。 在 使 用 数据 报 套 接 字 情 
况 下 ， 当 某 个 子 进程 过 早 终止 时 ， 父 进程 在 流 管道 的 拥有 端 接 收 不 到 EOF， 不 过 父 进 
程 可 以 使 用 srIGCHLD 信 号 达到 这 个 目的 。 这 种 能 够 使 用 srIGcHLD 的 情形 与 28.7 节 中 的 
icmpd 守 护 进程 情形 相 比 的 一 个 差别 是 : 后 者 的 客户 和 服务 器 之 间 不 存在 父子 关系 ， 
因此 流 管道 上 的 EOF 是 服务 器 检测 某 个 客户 已 消失 的 唯一 办 法 。 


第 31 章 
31.1 ”我 们 假定 流 关闭 时 协议 的 默认 处 理 就 是 顺序 释放 ， 这 对 TCP 来 说 是 正确 的 。 
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网 际 网 协议 在 4.4BSD-Lite 操 作 系 统 上 的 实现 。 本 书 称 之 为 TCPv2， 


sx 引 


网 络 编程 是 一 个 密布 首 字母 缩写 词 的 领域 。 我 们 不 提供 一 个 单独 的 词汇 表 (其 中 大 多 数 条 目 
将 是 首 字母 缩写 词 ) ， 不 过 本 索引 也 可 用 作 本 书 所 用 所 有 首 字 母 缩写 词 的 词汇 表 。 可 以 首 字母 缩 
写 的 词 条 其 主 条 目 编排 在 缩写 词 之 下 。 举 例 来 说 ， 所 有 对 Internet Control Message Protocol (网 际 
网 控制 消息 协议 ) 的 引用 出 现在 ICMP 之 下 ， 在 完整 词 条 “Internet Control Message Protocol” 之 
下 的 条 目 只 是 引用 回 ICMP 之 下 的 主 条 目 。 

每 个 C 函 数 的 “definition of( 定 义 )” 条 目 给 出 该 函数 带 方 框 的 函数 原型 即 基 本 描述 的 所 在 页 。 
每 个 结构 的 “definition of (定义 )” 条 目 给 出 该 结构 的 基本 定义 的 所 在 页 。 那 些 在 本 书 中 有 源 代 
码 实现 的 函数 还 有 “source code〈 源 代码 )” 条 目 。 


索引 中 的 页 码 为 英文 原 书页 码 ， 与 书 中 页 边 标注 的 页 码 一 致 。 
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client structure (ciient 结 构 )，775,777-780, 783 
client/server《 客户 /服务 器 》 
design alternatives (客户 /服务 器 供 选 择 的 设计 范式 )， 
817-850 
examples road map〔 客 户 /服务 器 例子 导读 图 )，16-18 
clock resolution (时 钟 分 辨 率 )，162 
clock gettime function (clock_gettimem %), 
705 
close (关闭 ) 
active (ES), 39-41, 43-44, 47-48, 62, 914, 916, 
921 
passive 〈 被 动 关闭 )，39-41, 47-48 


simultaneous 《同时 关闭 )，40-41, 48 

close function (close 函 数 )，12, 15, 37, 39-40, 47, 63, 
101, 114—115, 117, 120, 137, 172-173, 189, 202-206, 236, 
279, 343—344, 446, 462, 464, 681, 707, 780, 868, 915, 
919, 938 
definition of (close RUE X), 117 

CLOSE WAIT state (CLOSE_WAITIRKAS), 41 

CLOSED state( CLOSEDAA 25, 40-41, 47-48, 63, 101, 104, 
207 

closefrom function (closefromPAXO, 369 

closelog function (closelogi#), 365-367 
definition of (c1oselogPAÉK E X), 367 

CLOSING state (CLOSINGIR2S), 41 

cmcred euid member (cmcred_euid 成 员 )，429 

cmcred gid member (cmcred_gid 成 员 )，429 

cmcred groups member (cmcred_groups 成 员 )， 
429 

cmcred ngroups member (cmcred_ngroups 成 员 )， 
429 

cmcred pid member (cmcred_pid 成 员 )，429 

cmcred uid member (cmcred_uid 成 员 )，429 

CMGROUP_MAX constant (CMGROUP_MAX 常 值 )，429 

CMSG DATA macro (CMSG_DATA 宏 )，425 
definition of (CMSG_DATA 宏 定义 )，397 

CMSG, FIRSTHDR macro(CMSG_FIRSTHDR 宏 )， 398, 590, 
730 
definition of (CMSG, FIRSTHDRZZSE X), 397 

CMSG_LEN macro (CMSG LEN/Z), 398,901 
definition of (CMSG_LEN 宏 定义 )，397 

CMSG_NXTHDR macro (CMSG, NXTHDRZ: ), 398, 590, 730 
definition of (CMSG_NXTHDR 宏 定义 )，397 

CMSG_SPACE macro (CMSG SPACEZ:), 398, 901 
definition of (CMSG_SPACE 宏 定义 )，397 

cmsg control member (cmsg_control 成 员 )，398 

cmsg_data member (cmsg_data 成 员 )，396-397, 425, 
722 

cmsg len member (cmsg_len 成 员 )，394, 396-398 

cmsg level member (cmsg_level 成 员 )，394, 396, 
616-619, 732 

cmsg_type member (cmsg_type hk fi), 394, 396, 
616-619, 732 

cmsgcred structure (cmsgcredfáfg), 429-430 
definition of (cmsgcred 结 构 定 义 )，429 

cmsghár structure (cmsghar 结 构 )，394, 396-398, 409, 
425, 615—619, 722, 727, 732 
definition of (cmsghar 结 构 定 义 )，396 

CNAME (canonical name record, DNS), 305, 307, 310 

code field (代码 字段 )，ICMP, 882 

coding 《代码 编写 ， 编 码 》 
style〔 代 码 编写 风格 )，8, 12 
TLV (TLV 编 码 )，720 

Coene, L., 267, 952 

Common Desktop Environment (公共 桌面 环境 )， 见 CDE 

Common Standards Revision Group〔 公 共 标 准 修 订 组 )， 
见 CSRG 

completed connection queue (已 完成 连接 队列 )，104 
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completely duplicate binding (完全 重复 的 捆绑 )，211-213， 
922 
Computer Emergency Response Team (计算 机 紧急 响应 
组 )， 见 CERT 
Computer Systems Research Group〔〈 计 算 机 系统 研究 组 )， 
见 CSRG 
concurrent programming (并 发 编程 )，698 
concurrent server 〈 并 发 服务 器 )，15, 114-116 
one child per client〈 每 个 客户 一 个 子 进程 )，TCP， 
822-825 
one thread per client( 每 个 客户 一 个 线程 ), TCP, 842-843 
port numbers and (端口 号 和 并 发 服务 器 )，52-55 
UDP (UDP 并 发 服务 器 )，612--614 
condition variable (条件 变 其)，701-705 
config.h header (config.h3k X4), 425,904-909 
configure program (configure 程 序 )，904 
congestion avoidance (拥塞 避免 )，461, 596,950 
CONIND number member (CONIND_number 成 员 )， 
860, 862 
conn req structure (conn_req 结 构 )，863 
connect function( connect HX), 7, 9, 11, 13, 29, 37-38, 
45, 52, 63, 68, 74, 76, 99-102, 104—105, 107, 118, 120, 
125-127, 135, 140, 146, 152, 165, 184, 208, 213, 237, 
239, 241, 245, 249, 252-257, 261-262, 307, 314, 317, 
319, 327-329, 337, 350, 355, 357-359, 361-362, 367, 
382-383, 386, 408-409, 415-416, 420, 432, 436, 
448—449, 451—452, 454, 457-459, 461, 464, 694, 696, 
707, 717, 736, 739, 769, 772, 777, 826, 892-893, 915, 
920—921, 933, 935 
definition of (connect MBUE X), 99 
interrupted 《被 中 断 的 connect 调 用 )，451-452 
nonblocking 〈 非 阻塞 connect 调 用 )，448-461 
timeout (connect 调 用 超时 )，382-383 
UDP (UDP l:ff]connectiüdE), 252-255 
connect non function (connect nonbtAÁXX), 449, 
454 
source code (connect, nonbBiR 3), 450 
connect timeo function (connect timeoifX«, 
382 
source code (connect timeoP Ee), 382 
connected TCP socket (已 连接 TCP 套 接 字 )，109 
connected UDP socket (已 连接 UDP 套 接 字 )，252 
connection (连接 ) 
abort〈 连 接 中 止 )，accepz function (accept 函 数 )， 
139-141 
establishment, SCTP (SCTP 连 接 建 立 )，44-50 
establishment, TCP (TCP 连 接 建立 )，37-43 
persistent 《持续 连接 )，825 
queue, completed (已 完成 连接 队列 )，104 
queue, incomplete 〈 未 完成 连接 队列 )，104 
termination, SCTP (SCTPIESE# H), 44-50 
termination, TCP (TCP3EME£E iF), 37-43 
connectionless〈 无 连接 的 )，34 
connection-oriented (面向 连接 的 )，35 
Conrad, P., 285, 953 
const qualifier (const 限 定 词 )，81, 103, 162 


Conta, A., 871, 882, 884, 948, 952 
continent-local multicast scope 〈 大 洲 局 部 多 播 范 围 )，552 
control information 《控制 信 息 )， 见 ancillary data〈 辅 助 数 
据 ) 
conventions (约定 ) 
source code《〈 源 代码 约定 )，7 
typographical〈 印 刷 上 的 约定 )，7 
COOKIE-ECHOED state(COOKIE-ECHOED 状 态 ), 47-48 
COOKIE-WAIT state (COOKIE-WAIT 状 态 )，47-48 
Coordinated Universal Time〈 国 际 标准 时 间 )， 见 UTC 
copy (复制) 
deep《〈 深 度 复 制 )，321 
shallow (RESH), 321 
copy-on-write 〔( 写 时 复制 )，675 
copyto function (copytom#), 680,944 
core file (core 文 件 )，369 
CORRECT_prim member (CORRECT_prim 成 员 )，865 
cpio program (cpio 程 序 )，26 
CPU. VENDOR, OS constant (CPU. VENDOR. OS fË), 
78 
CR (carriage return), 9, 895, 916 
crashing and rebooting of server host( 服 务 器 主机 崩溃 并 重 
hid, 144-145 
crashing of server host (服务 器 主机 崩溃 )，144 
Crawford, M., 551, 948-949 
credentials, receiving sender 〈 接 收发 送 者 凭证 )，429_431 
creeping featurism 〈 卑 躺 届 肤 的 特征 主义 )，741 
cron program (cronfé/T), 364,366 
CSRG (Computer Systems Research Group), 20 
CSRG (Common Standards Revision Group), 25 
ctermid function (ctermid 函 数 )，685 
ctime function (ctimeÑ%), 15,685 
ctime_r function (cime_r 函 数 )，685 
CTL_NET constant (CTL_NET 常 值 )，496-497, 499 


daemon 〈 守 护 程序 ， 守 护 进 程 )，16 
definition of (守护 进程 定义 )，363 
process (守护 进程 )，363-380 
daemon function (daemon 函 数 )，367 
daemon, inetd function ( daemon inetd mM), 
377-379 
source code (daemon inetdP SYR ARGS), 377 
daemon, init function (daemon. init? XO, 367-372, 
378-380 
source code 〈daemon_init 函 数 源 代 码 )，368 
daemon, proc variable (Gaemon_proc 变 量 )，369, 378, 
910 
data formats《 数 据 格式 )，147-151 
binary structures C 二进制 结构 )，148-151 
text strings( 文 本 帅 )，147-148 
Data Link Provider Interface (数据 链 路 提供 者 接口 )， 见 
DLPI 
Gata member (data 成 员 )，405, 408 
datagram 《数据 报 ) 
service, reliable《〈 可 靠 数据 报 服务 )，597-608 
socket (数据 报 套 接 字 )，33 
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truncation, UDP (UDP 数据 报 截断 )，594 
datalink socket address structure (数据 链 路 套 接 字 地 址 结 
TJ), routing socket 〈 路 由 套 接 字 )，486-487 
daytime port〈 时 间 获 取 服 务 端 口 )，61-62 
DCE (Distributed Computing Environment), 597 
RPC (DCE RPC), 62 
de Groot, G. J., 876, 952 
deadlock (FE), 916 
debugging techniques (调试 技术 )，891-897 
deep copy〔 深 度 复制 )，321 
Deering, S. E., 55-57, 216, 529, 550, 564, 721, 726, 871, 
873, 877-879, 882, 884, 948—949, 951—952 
delayed ACK (XEWRACKO, 220, 237, 923 
delta time 〈 增 量 时 间 )，704 
denial-of-service attack (拒绝 服务 攻击 ), 46, 108, 180, 463, 
934 
descriptor (HREF) 
passing 《描述 符 传递 )，420-428, 769, 836-842 
reference count (描述 符 引 用 计数 )，117, 421 
set《〈 描 述 符 集 )，162 
design alternatives, client/server (客户 /服务 器 程序 供 选择 
的 设计 范式 )，817-850 
DEST length member (DEST_length 成 员 )，863 
DEST_offset member (DEST_offset 成 员 )，863 
destination (目的 ) 
address, IPv4 《IPv4 目 的 地 址 )，871 
address, IPv6 〈IPv6 目 的 地 址 )，873 
IP address, recvmsg function, receiving (recvmsghA 
接收 IP 目 的 地 址 )，588-593 
options, IPv6 (IPv6 目 的 地 选项 )，719-725 
unreachable, fragmentation required, ICMP(ICMP 目 的 地 
不 可 达 ， 需 分 片 但 DF 位 已 设置 )，56, 771, 883 
unreachable, ICMP (ICMP 目 的 地 不 可 达 ), 100-101, 144, 
200, 249, 762, 764—765, 771, 775, 865, 883-884 
destructor function 〈 析 构 函 数 )，690 
detached thread (已 脱离 的 线程 )，678 
Detailed Network Interface (详尽 网 络 接口 )， 见 DNI 
/dev/bpf device(/dev/bpf 设 备 )，799 
/dev/console device (/dev/console 设 备 )，364 
/dev/Klog device (/dev/klog 设 备 )，364 
/dev/kmem device (/Gev/kmem 设 备 )，482, 484 
/dev/log device (/dev/1og 设 备 )，364 
/dev/null device (/dev/null 设 备 )，370, 701 
/dev/poll device (/dev/poll#&#®), 402404 
/dev/tcp device (/dev/tcp#), 859 
/dev/zero device (/dev/zerott fr), 830, 836 
DF (don’t fragment flag, IP header), 56, 444, 771, 871, 883 
DG structure (DG 结构 )，666 
dg. cli function (dg_cli Pi), 244-246, 256-257, 383, 
385-386, 419, 535-536, 541, 544-545, 547, 570, 599, 
728, 772, 925 
dg echo function (dg. echorR SE), 242, 244-245, 257, 
260, 419, 592, 666, 668, 729 
dg send recv function (dg send recv?ÉXX), 599, 
601, 604, 606, 620 
source code (dg send recviR ÉL C 63). 602 


DHCP (Dynamic Host Configuration Protocol), 62, 530, 532 

Differentiated Services 《区 分 服务 )，870-871 

Digital Unix, 257, 346, 700 

disaster, recipe for ( 导致 灾难 性 后 果 )，684 

discard port 丢弃 服务 端口 )，61 

DISCON_reason member (DISCON_reason 成 员 )， 
865 

diskless node (无 盘 节 点 )，34 

DISPLAY environment variable (DISPLAY 坏 境 变量 )， 
411 

Distributed Computing Environment 《分布 式 计算 环境 )， 
见 DCE 

DL ATTACH, REQ constant (DL, ATTACH R EQ 常 值 )》， 
790 

DLPI (Data Link Provider Interface), 32, 34, 98, 787, 
790—791, 793, 810, 854, 954 

DLT_EN10MB constant (DLT_EN10MB 常 值 )，808 

DNI (Detailed Network Interface), 27 

DNS (Domain Name System), 9, 57, 62, 239, 303-306, 
311—312, 789 
absolute name (DNS 绝对 名 字 )，303 
alternatives (DNS 蔡 代 方 法 )，306 
canonical name record (DNS 规 范 名 字 记 录 ), 见 CNAME 
mail exchange record (DNS 邮件 交换 记录 )， 见 MX 
pointer record (DNS 指针 记录 )， 见 PTR 
resource record (DNS 资源 记录 )， 见 RR 
round robin (DNS 轮 询 )，822 
simple name (DNS 简单 名 字 )，303 

do get read function (do_get_readM 1), 695-697, 
705 

dom family member (dom_familyRR), 99 

Domain Name System (域名 系统 )， 见 DNS 

domain structure (domain 结 构 )，99 

don't fragment flag, IP header (IP 首 部 不 分 片 标志 )}， 见 DF 

dotted-decimal notation C 点 分 十 进 制 数 串 记 法 )，874 

double buffering〔 双 缓冲 )，789 

DP POLL constant (DP_POLL 常 值 );，403 

dp. fds member (Gp_fds 成 员 )，403 

dp nfds member (dp_nfds 成 员 )，403 

dp. timeout member (Gap_timeout 成 员 )，403 

Draves, R., 317, 879, 949, 95] 

driver, STREAMS ( 流 驱动 程序 )，851 

DSCP, 215, 870-871 

dual-stack host〈 双 栈 主机 )，322，325，330，332-333， 
353-357, 359 
definition of《〈 双 栈 主机 定义 )，34 

dup function (aup 函 数 )，829 

dup2 function (dup2 Á), 373 

duplicate (重复 分 组 》 
lost〈 迷 途 的 重复 分 组 )，43 
wandering〈 漫 游 的 重复 分 组 )，43 

Durst, W., 315 

Dynamic Host Configuration Protocol (动态 主机 配置 协 
WO, JLDHCP 

dynamic port Cz AS E15, 51 
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EACCES error (FACCES#iiR), 199,535 

EADDRINUSE error (EADDRINUSEÉÉiX), 103, 451, 609, 
921 

EAFNOSUPPORT error (EAFNOSUPPORT 错 误 )，83, 254 

EAGAIN error (EAGAIN 错 误 )，436, 658, 677 

EAI AGAIN constant (EAIT_AGAIN 常 值 )，321 

EAI BADFLAGS constant (EAI_BADFLAGS 常 值 )，321 

EAI FAIL constant (EAI_FAIL 常 值 )，321 

EAI_FAMILY constant (EAI_FAMILY 常 值 )，321 

EAI MEMORY constant (EAI_MEMORY 常 值 )，321 

EAI NONAME constant (EAT_NONAME 常 值 )，321 

EAI OVERFLOW constant (EAT_OVERFLOW 常 值 )，321 

EAI SERVICE constant (EAT, SERVICE 常 值 )，321 

EAI SOCKTYPE constant (EAT_SOCKTYPE 常 值 );，321 

EAI SYSTEM constant (EAI_SYSTEM 常 值 )，321 

EBUSY error (EBUSY 错 误 )，790 

echo port〔 回 射 服务 端口 )，，61-62, 380 

echo reply, ICMP (ICMP 回 射 应 答 )，735, 741, 883-884 

echo request, ICMP (ICMP 回 射 请 求 )，735，739，741， 
883-884 

ECN, 215, 870-871 

ECONNABORTED error (ECONNABORTED IR), 140, 463 

ECONNREFUSED error (ECONNREFUSED# iz), 13, 99, 
257, 416, 451, 771, 865, 883-884 

ECONNRESET error (ECONNRESET#HiR),. 142, 145, 200, 
921 

EDESTADDRREQ error (EDESTADDRREQ 错 误 )，253 

EEXIST error (REXIST 错 误 )，495 

EHOSTDOWN error (EHCSTDOWN 错 误 )，884 

EHOSTUNREACH error (EHOSTUNREACH 错 误 )，100_101]， 
144, 201—202, 771, 865, 883-884 

EINPROGRESS error( EINPROGRESS 错 误 ), 436, 448-449 

EINTR error (EINTR#H IR), 90, 134-135, 138, 162, 181, 
263, 383, 451, 463, 536, 545, 547, 669, 765, 803, 939 

EINVAL error( EINVAL 错 误 ), 162, 232, 274, 475, 514, 648, 
651, 775, 915 

EISCONN error (EISCONN 错 误 )，253, 451 

EMSGSIZE error( EMSGSIZE 错 误 ), 59, 225, 537, 771, 883, 
925 

encapsulating security payload (安全 净 荷 封装 )， 见 ESP 

end of option list《〈 选 项 列表 结束 选项 )， 见 EOL 

end-of-filje〈 文 件 结束 符 )， 见 EOF 

ENETUNREACH error( ENETUNREACH 错 误 ), 100, 144, 199 

ENOBUFS error (ENOBUFS 错 误 )，60 

ENOENT error (ENOENT 错 误 )，514 

ENOMEM error (ENOMEM 错 误 )，496 

ENOPROTOOPT error( ENOPROTOOPT 错 误 ), 197, 883-884 

ENOSPC error (ENOSPC 错 误 )，83 

ENOTCONN error (ENOTCONN 错 误 )，253, 451 

environ variable (environ#), 113 

environment variable 〈 环 境 变 量 ) 
DISPLAY (DISPLAY Sea HH), 411 
LISTENQ (LISTEN IA), 107 
PATH 《PATH 环境 变量 )，23, 113 

EOL (end of option list), 709, 713, 945 

EOPNOTSUPP error (EOPNOTSUPPfHiR), 231,274 


ephemeral port 临时 端口 ), 50-51, 53-54, 87, 99, 101-103, 
111, 120, 122, 245—246, 250, 262, 341, 416, 613, 769, 772, 
779, 915 
definition of 〈 临 时 端口 定义 ) , 50 

EPIPE error (EPIPE 错 误 )，142-143, 916 

Epoch《〈 纪 元 )，14, 606 

EPROTO error (EPROTO 错 误 )，140, 463, 832 

Eriksson, H., 885, 949 

err, doit function, source code (err_doit 函 数 源 代 
E3), 910 

err dump function (err_dumpMi%{), 910 
source code (err_dqump 函 数 源 代码 )，910 

err msg function (err msgFÁTÉ), 370,910 
source code (err_msg 函 数 源 代码 )，910 

err quit function (err_quit #%), 11,142,380,910 
source code (err_quit 函 数 源 代码 )，910 

err ret function (err, ret ERO, 910 
source code (err_ret 函 数 源 代码 )，910 

err sys function (err_sys 函 数 )，8, 11-13, 100, 257, 
658,910 
source code (err_sys AURIS), 910 

errata availability 〈 勘 误 表 可 获 性 )，xxii 

errno variable (errno 变 量 )，12-13, 30, 83, 140, 165, 
167, 181, 184, 200, 249, 308, 321, 343-345, 365, 383, 
424, 427, 451, 604, 676-677, 769, 771, 775, 783, 
882—884, 910, 913 

error (HHR) 
asynchronous 〈 异 步 错误 )，240, 249, 252-253, 769-786 
fonctions〈 错 误 处 理 函 数 )，910-912 
hard (HERR), 99 
soft (HHR), 100 

ERROR prim member (ERROR prim), 862 

ESP (encapsulating security payload), 719, 951 

ESRCH error (ESRCH 错 误 )，495 

ESTABLISHED state(ESTABLISHED 状 态 ),40-41, 47-48, 
63, 101, 104, 106, 127, 140, 916 

/etc/hosts file (/etc/hostsX ft), 306,348 

/etc/inetd.conf file (/ecc/inetd.conf 文 件 )， 
372-373, 379 

/etc/irs.conf file (/etc/irs.conf Xt), 306 

/etc/netsvc.cont file(/etc/netsvc.con£ X4), 
306 

/etc/networks file( /etc/networks Xf), 348-349 

/etc/nsswitch.conf file (/etc/nsswitch.conf 
X41), 306 

/etc/passwd file (/etc/passwa fF), 372 

/etc/protocols file (/etc/protocolsXÍff),. 348, 
372-373 

/etc/rc file (/etc/rcX41t), 363,371 

/etc/resolv.conf file(/etc/resolv.conf Xft), 
254, 306, 317 

/etc/services file (/etc/services M4), 61,311, 
319, 348, 372, 379, 933 

/etc/syslog.conf file(/etc/syslog.conft Xt), 
364, 366, 379 

ETH_P_ARP constant (ETH_P_ARP 常 值 )，792 
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ETH P IP constant (ETH_P_IP#{H), 792 
ETH P IPV6 constant (ETH_P_IPV6 常 值 )，792 
Ethernet (LAA), 34, 42, 55, 57, 63, 199, 208, 354-355, 
471, 473-474, 482, 486, S02, 532, 534—535, 538, 
550—551, 554—555, 792, 808—809, 870, 879, 914, 939 
ETIME error (ETIMEGRHX), 704 
ETIMEDOUT error (ETIMEDOUT 错 误 )，13, 99-101, 144, 
200, 202, 383, 449, 451, 604, 865, 919, 924 
EUI (extended unique identifier), 509, 879, 950 
-64 format, modified (经 修正 的 EUI-64 格 式 )，879 
EV ADD constant (EV_ADD 常 值 )，406 
EV CLEAR constant (EV_CLEAR#{A), 406 
EV DELETE constant (EV_DELETE 常 值 );，406, 408 
EV DISABLE constant (EV_DISABLE% (H), 406 
EV ENABLE constant (EV_ENABLE 常 值 )，406 
EV. EOF constant (EV_EOF 常 值 )，406 
EV ERROR constant (EV_ERROR 常 值 )，406 
EV_ONESHOT constant (EV_ONESHOT 常 值 )，406 
EV SET macro (EV_SET 宏 )，406 
definition of (EV_SET 宏 定义 )，405 
events member (events 成 员 )，183, 185, 188 
EVFILT_AIO constant (EVFILT_AIO 常 值 );，406 
EVFILT_PROC constant (EVFILT_PROC#{H), 406 
EVFILT READ constant (EVFILT_READ# fH), 406 
EVFILT_SIGNAL constant (EVFILT_SIGNAL 常 值 )， 
406 
EVFILT_TIMER constant (EVFILT_TIMER 常 值 )，406 
EVFILT VNODE constant (EVFILT_VNODE 常 值 )，406 
EVFILT_WRITE constant (EVFILT_WRITE 常 值 )，406 
EWOULDBLOCK error(EWOULDBLOCK 错 误 ), 155, 203, 207, 
386, 435—436, 439, 441—442, 463, 648, 657-658, 671, 
945 
examples road map, client/server (客户 /服务 器 例子 导读 
图 )，16-18 
exec function (exec 函 数 )，26, 111-114, 118-119, 147, 
372-374, 376-377, 420—423, 676, 825, 850, 934 
definition of (exec IE X, 113 
exec] function (exec] H#), 423 
definition of (exec MAGE X). 113 
execle function, definition of (execleMRE X), 113 
execip function, definition of (execl pm Ae X), 113 
execv function, definition of (execvM SUE), 113 
execve function, definition of (execveR RH MM), 113 
execvp function, definition of (execvp MMM), 113 
exercises, solutions to (>) f 2$), 913-946 
exit function (exit), 9, 39, 114, 128, 137, 237, 
401-402, 409, 427, 614, 679—680, 910, 935 
expedited data〈 经 加 速 数据 》， 见 out-of-band data 
exponential backo 和 全 (指数 回 退 》，598, 802 
extended unique identifier (经 扩展 的 唯一 标识 符 )， 多 EUI 
extension headers, IPv6 (IPv6 扩 展 首部 )，719 
external data representation〔 外 部 数据 表示 )， 见 XDR 


F CONNECTING constant ( F_CONNECTING 常 值 )， 
457-459 
F DONE constant (F_DONE 常 值 )，459, 697 


F GETFL constant (FE_GETFL 常 值 )，235 
F_GETOWN constant (F_GETOWN 常 值 )，234-236, 467 
F JOINED constant (F_JOINED 常 值 )，706 
F READING constant (F_RERADING 常 值 )，458-459 
F SETFL constant (F_SETFL 常 值 )，234-235, 468, 664 
F SETOWN constant(F_SETOWN 常 值 ), 234—235, 467, 664 
F UNLCK constant (F UNLCK?É[l), 834 
F WRLCK constant (FE_WRLCK 常 值 )，834 
f flags member (f_flags 成 员 )，458 
f tid member (f tidJ A), 694 
family, to level function ( £amily. to. level # 
YO. 567 
FAQ (frequently asked question), 142, 210 
FASYNC constant (FASYNC 常 值 )，234 
fcntl function (fent 1H), 114, 191, 233—236, 439, 
449, 466—468, 647, 649, 664, 669, 833-834 
definition of (fent MGEN), 235 
fered structure (fcred 结 构 )，397 
fd member (fd 成 员 )，183, 185, 188 
FD CLOEXEC constant (FD_CLOEXEC 常 值 );，114 
FD CLR macro (FD_CLR#), 376 
definition of (FD_CLR 宏 定义 )，163 
FD ISSET macro (FD_ISSET 宏 )，164 
definition of (FD_ISSET 宏 定义 )，163 
FD, SET macro (FD_SET 宏 )，168, 697 
definition of (FD_SET 宏 定义 )，163 
FD SETSIZE constant (FD_SETSIZE 常 值 )，163, 166, 
177, 185 
FD ZERO macro (FD_ZERO 宏 )，168 
definition of (FD_ZERO 宏 定义 )，163 
fd set datatype (fG_set 数 据 类 型 )，163-164, 185 
FDDI (Fiber Distributed Data Interface), 34, 550—551 
fdopen function (fdopenM#), 399-400 
Fenner, B., 564, 948 
fflags member (fflags 成 员 )，405 
fflush function (££lushtE 3). 400-402 
fgets function (fgets 函数 )，15, 121, 125-126, 128, 
141-142, 153, 167-169, 171, 245, 287, 292, 400-401, 
536, 851, 915-916, 924 
Fiber Distributed Data Interface 〈 光 纤 分 布 式 数据 接口 )， 
见 FDDI 
FIFO (first in, first out), 243 
FILE structure (FILE 结 构 )，402, 679 
file structure (file 结构 )，455, 459, 694-695, 706, 829 
file table《 文 件 表 )，421 
File Transfer Protocol (文件 传送 协议 )， 郊 FTP 
fileno function〔(fileno 函 数 )，168, 400 
filter member (filter 成 员 )，405 
filtering (过 滤 ) 
ICMPv6 type (ICMPv6 类 型 过 滤 )，740-741 
imperfect multicast 〈 不 完备 多 播 过 滤 )，555 
perfect Co deba), 555 
FIN (finish flag, TCP header), 39—40, 179, 789 
FIN WAIT 1 state (FIN WAIT 1&4. 40-41 
FIN WAIT 2 state (FIN WAIT 2 状态 )，41, 128, 944 
finish flag, TCP header (TCP 首 部 完成 标志 )， 见 FIN 


Fink, R., 879, 888, 949 
FIOASYNC constant ( FIOASYNC## fE), 234, 467—468, 664 
FIOGETOWN constant (FIOGETOWN?7É[l), 467—468 
FIONBIO constant (FIONBIO 常 值 )，234, 467-468 
FIONREAD constant (FIONREAD 常 值 )，234，399，409， 
467-468 
FIOSETOWN constant (FIOSETOWN# fH), 467-468 
firewall (Bj Ki), 893, 948 i 
first in, first out 《先进 先 出 )， 见 FIFO 
flags member (flags 成 员 )，405 
flock structure (flock 结 构 )，834 
flooding (Z) 
broadcast (J dizi), 558 
SYN (SYN4} Zi). 108,948 
flow control (ifs), 35 
UDP lack of (UDP 缺乏 流 控 )，257-261 
flow label field, IPv6 (IPv6 流 标签 字段 )，871 
Floyd, S., 35, 215, 870-871, 947-948, 952 
FNDELAY constant (FNDELAY #44), 234 
fopen function (£opentÉ S, 851 
fork function (forkM%), 15-16, 26, 53, 95, 111-115, 
118, 120, 122, 126, 132, 139, 175, 243, 263, 368-369, 
371, 373-377, 379-380, 405, 420-423, 430, 432, 
446-448, 464, 577, 609, 612-614, 675-677, 679, 681, 
698, 707, 717, 817-818, 820, 822-823, 825-827, 
829—830, 837, 842, 850, 934, 944, 946 
definition of ( fork 函 数 定义 )，111 
format prefix( 格 式 前 级 )，878 
formats (格式 ) 
binary structures, data ( 二进制 结构 数据 格式 )，148-151 
data《 数 据 格 式 )，147-151 
text strings, data〔 文 本 囊 数据 格式 )，147-148 
four-way handshake (JURY FT), 45 
SCTP (SCTP 四 路 握手 )，45-46 
fpathconf function (fpathcontPBP D, 209 
fprintf function (fprintf), 344, 365, 369-370, 
439, 443 
fputs function (£putsrAX. 9, 11, 121, 125, 168-169, 
245, 288, 400—402, 680, 919 
FQDN (fully qualified domain name), 303, 309, 317, 340 
fragmentation ( 441), 56-57, 59, 719, 737, 739, 771-772, 
870, 873, 883-884, 914, 926, 945 
and broadcast, IP (IPZ))T 55] 4%), 537-538 
and multicast, IP (IPH 55 & 8D, 571 
offset field, IPv4〈IPv4 分 片 偏 移 字段 )，871 
frame type【〔 蚌 类 型 )，532, 534-535, 555, 791—792 
free function (free), 508, 684 
free ifi info function (free ifi infotA "Wb, 
471, 478 
source code (free ifi infoPB NX), 480 
freeaddrinfo function (freeaddrinfom), 321, 
327, 345 
definition of (freeadGrinfo 函 数 定义 )，321 
FreeBSD, 20—24, 78, 108, 197, 260—262, 299, 405, 469, 473, 
497, 538, 658, 666, 710, 775, 882-883, 891, 897, 904, 
926, 934, 939-940 


* 引 771 


freehostent function (£reehnostentH ZR), 347 
definition of ( freehostent ME X), 347 

frequently asked question 〈 常 问 问题 )， 见 FAQ 

fseek function (fseekxk 函 数 )，400 

fsetpos function (fsetpos 函 数 )，400 

fstat function (£statHi 3$). 406 

fstat program (fscat 程 序 )，897 

FTP (File Transfer Protocol), 20, 62, 201, 311—312, 360, 362, 
366, 375, 662, 914, 947 

fudge factor〔 模 糊 因 子 )，106, 500 

full-duplex (®II), 36,415 

Fuller, V., 874, 949 

fully buffered standard I/O stream〈 完 全 缓冲 的 标准 IO 
流 )，401 

fully qualified domain namce《〈 全 限定 域名 )， 见 FQDN 

function (函数 ) 
destructor ( 析 构 函数 )，690 
system call versus〈 系 统 调用 和 函数 对 比 )，891 
wrapper (RRO, 11-13 


gai_strerror function (gai strerror M$), 
320-321 
definition of (gai_strerror 函 数 定义 )，321 
Ganguly, S., 285, 953 
Garcia, M., 267, 952 
Garfinkel, S. L., 15, 949 
gated program (gatedf#/¥), 199, 485, 735 
gather write 〈 集 中 写 )，389 
generic socket address structure 〈 通 用 套 接 字 地 址 结构 )， 
70-71 
new【〔 新 的 通用 套 接 字 地 址 结构 )，72-73 
get ifi info function (get ifi info$m AK), 
469—480, 482, 484, 500—503, 582, 608 
source code (get_ifi_info 函 数 源 代 码 )，474, 501 
get rtaddrs function (get. rzaddrsifi f, 492-493, 
502, 505 
getaddrinfo function(getaddrinfoF Y), 10, 15, 38, 
93, 232, 303, 307, 315-329, 332-336, 338, 340-341, 343, 
345-347, 349, 357, 361, 620, 746, 932, 941 
definition of (getaddrinfo MGE X), 315 
examples (getaddrinfo Rwy), 324-325 
IPv6 (getaddrinfo #t: IPv6), 322-323 
getc unlocked function (getc_unlocked i), 
685 
getchar unlocked function (getchar unlocked 
函数 )，685 
getconninfo function (getconninfo 函 数 )，315 
getgrid function (getgria 图 数 )，685 
getgrid r function (getgrid_r 函 数 )，685 
getgrnam function (getgrnamPE SE), 685 
getgrnam r function (getgrnam, ri), 685 
gethostbyaddr function (gethostbyaddriA Y), 
303, 305-306, 310, 315, 341-343, 346, 348-350, 361, 
685, 928-930 
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definition of (gethostbyadárrf GE X), 310 
gethostbyaddr r function (gethostbyaddr rH 
T, 344-346 
definition of (gethostbyadar_r RUE), 345 
gethostbyname function (gethostbyname 国 数 )， 
303, 305-310, 312, 314-315, 320, 329, 341-350, 355, 
361, 685, 929-930, 932-933 
definition of (cechostbyname 函 数 定 义 )，307 
gethostbyname2 function (gethostbyname2 AX), 
342, 346-347 
definition of (gethostbyname2 if Mf E XM), 347 
gethostbyname r function (gethostbyname, r Hf 
HO, 344-346 
definition of (gethostbyname_r PA UEN), 345 
gethostent function (gethostent AM), 349 
getifaddrs function (get ifaddrsPASI), 469 
getipnodebyaddr function ( getipnodebyaddr B 
XO, 347 
getipnodebyname function (get ipnodebyname FA 
NO. 347 
definition of (getipnodebyname BE ML), 347 
getlogin function (getloginhi), 685 
getlogin_r function (getlogin_rHi%&), 685 
getmsg function (gecmsg 国 数 )，155, 809-810, 855-857, 
860, 862, 864—868, 891 
definition of (cetmsctKi Ma! X), 856 
getnameinfo function (getnameinfom ML), 38, 93, 
303, 320, 331, 340-341, 343, 345, 347, 349-350, 361, 
762, 933 
definition of (getnameinforh ME X), 340 
getnameinfo_timeo function (getnameinfo_timeo 
函数 )，350 
getnetbyaddr function (getnetbyaddrA), 348 
getnetbyname function (get netbynametfi f, 348 
getopt function (getopt, 516, 796 
, getpeername function( getpeername Ph XO. 52, 68, 75, 
117-120, 147, 275, 329, 340, 377-378, 451 
definition of (cetpeernamei SEE X), 118 
getpid function (getpidPÁTÁ)D. 678 
getpmsg function (getomsgř #0), 855, 857, 868 
definition of (cetpmsgPR BE X), 857 
getppid function (getppidPAEO, 111,938 
getprotobyname function (getprotobyname 函 数 )， 
348 
getprotobynumber function (getprotobynumber 
函数 )，348 
getpwnam function (get pwnamPfAi A, 373, 685 
getpwnam r function (getpwnam rFPE. 685 
getpwuid function (get pwu i GERA, 685 
getpwuid r function (getpwuid_ri%), 685 
getrlimit function (getrlimitPK ZO, 919 
getrusage function (getrusage š), 824, 827 
gets function (gets), 15 
getsatypebyname function (getsatypebyname FA 
X0. 516 


getservbyaddr function (getservbyaddr Á 30. 
348 

getservbyname function (get servbynametf % ), 
303, 311-314, 320, 329, 343, 348-349, 373 
definition of (getservoyname MU X), 311 

getservbyport function (getservbyport FÉ 0. 
303, 311—314, 343, 348 
definition of (getservbyport HME X), 312 

getsockname function (getsockname 函 数 )，68, 75, 
103, 117-120, 146-147, 211, 230, 251, 261, 340, 413-414, 
769, 779, 915, 932 
definition of (Getsockname 函 数 定义 )，118 

getsockopt function (getsockopt 函 数 )，76，165， 
191-194, 197, 200, 215, 218, 222-223, 226, 230, 237, 
278, 451, 459, 559, 617, 710, 714, 717—718, 733, 740 
definition of (getsockopt 函 数 定义 )，192 

gettimeofday function (gettimecofdaay 函 数 )，582， 
606, 704—705, 747 

Gettys, J., 294, 949 

getuid function (getuid 函 数 )，799 

gf time function (gf_time 函 数 )，442 
source code (gf_time 函 数 源 代码 )，442 

Gierth, A., 462, 949 

GIF (graphics interchange format), 454, 825 

Gilligan, R. E., 28, 71, 216, 346—347, 361, 504, 880, 949 

global multicast scope 〈 全 球 多 播 范围 )，552-553 

global routing prefix 《全球 路 由 前 级 )，878 

global unicast address (全 球 单 播 地 址 )，878-879 

global unicast scope 《全 球 单 播 范 围 )，878 

gmtime function (amt ime), 685 

gmtime_r function (gmtime_r i), 685 

goto, nonlocal ( 非 本 地 跳 转 )，543, 803 

gpic program (gpic 程 序 )，xxiii 

gr_group member (gr_group 成 员 )，560 

gr interface member (gr_interface 成 员 )，560 

graphics interchange format ( 图形 交 换 格式 )， 见 GIF 

grep program (grep 程 序 )，128, 913 

group ID (组 ID)，429, 431, 676 

group req structure (group_req 结 构 )，193 
definition of (group_req 结 构 定 义 )，560 

group_source_reg structure (group. source req 
结构 )，193 
definition of (group_source_reoS##i X), 562 

gsr group member (gsr croup/A R), 562 

gsr interface member (gsr_interface 成 员 )， 
562 

gsr_source member (gsr_source 成 员 )，562 

gtbi program (gtbl 程 序 )，xxiii 


h addr list member (h_addr_list mA), 307—308, 
929 

h_addrtype member (h addrtypeJE 51), 307-308, 
932 

n aliases member (h aliases/M 5i), 307-308 

h errno member (h_errnof h), 308, 345-346 

h length member (h length i), 307-308 
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h name member (n name/X 5), 307-308, 310, 349 

Haberman, B., 551—552, 949 

hacker (HA), 15, 108, 718, 786, 948 

half-close 〈 半 关闭 )，39, 173, 895 

half-open connection 〈 半 打开 的 连接 )，201, 236 

Handley, M., 571, 949 

hard error〈 硬 错误 )，99 

Harkins, D., 524, 949 

HAVE MSGHDR MSG, CONTROL constant (HAVE, MSGHDR . 
MSG_CONTROL 常 值 )，425 

HAVE_SOCKADDR_SA_LEN constant (HAVE SOCKADDR_ 
SA_LEN 常 值 )，68 

hdr structure (har 结 构 )，601, 603-604, 941 

head of line blocking 〈 头 端 阻塞 )，31, 293-299 

head, STREAMS (Hik), 852 

header (首部 ) 
extension length 〈 首 部 扩展 长 度 )，719, 725 
length field, IPv4 (IPv4 首 部 长 度 字段 )，870 

High-Performance Parallel Interface 〈 高 性 能 并 行 接口 )， 
见 HIPPI 

high-priority, STREAMS message (高 优先 级 流 消息 ), 183, 
854 

Hinden, R., 55, 57, 216, 529, 721, 726, 871, 873, 877-879, 
888, 948—949 

HIPPI (High-Performance Parallel Interface), 55 

historical advanced API, IPv6 ( Jj P TEIPv6zS2RAPD, 732 

history, BSD networking (BSD 网 络 支持 历史 )，20-21 

Holbrook, H., 558, 950 

Holdrege, M., 267, 952 

home, page function (home nager ÉL), 455-456, 694, 
697 

hop count, routing 〈 路 由 跳 数 )，481 

hop limit( 跳 限 ),43, 217-218, 552, 559, 563, 566, 617, 750, 
755, 757, 761, 772, 872-873, 884 

hop-by-hop options, IPv6 (IPv6 iik), 719-725 

host byte order (主机 字 节 序 )，77, 103, 110, 120, 148, 731, 
740,915 

Host Requirements RFC (主机 要 求 RFC)，948 

HOST NOT. FOUND constant (HOST_NOT_FOUND 常 值 )， 
308 

host, serv function (host_serv 函 数 )，325-326, 457, 
713, 717, 728, 745, 757, 798 
definition of (host_serv 函 数 定义 )，325 
source code (host_serv 函 数 源 代码 )，326 

hostent structure (hostent 结 构 )，307-308, 310, 345, 
347—348, 929 
definition of (hostent 结 构 定 义 )，307 

hostent data structure (hostent_data 结 构 )，346 

HP-UX, 22, 78, 108, 257, 262, 306, 343, 346, 390, 538, 793 

hstrerror function (hstrerrorHÉ X), 308,310 

HTML (Hypertext Markup Language), 454, 825 

htonl function (htonl M$), 79,103,152,918 
definition of (htonl ARGEN), 79 

htons function (htonsM%), 8,311 
definition of (htons 函 数 定义 )，79 

HTTP (Hypertext Transfer Protocol), 9, 40, 62, 103, 106, 


211, 452, 456, 459, 595, 696, 820, 825, 896 
Huitema, C., 304, 889, 950, 954 
Hypertext Markup Language( 超 文本 标记 语言 ), 见 HTML 
Hypertext Transfer Protocol ( 超 文 本 传送 协议 )， 见 HTTP 


I_RECVFD constant (I_RECVFD 常 值 )，420 
I, SENDFD constant (I_SENDFD 常 值 )，420 
IANA (Internet Assigned Numbers Authority), 50-52, 215, 
311,950, 953 
ICMP (Internet Control Message Protocol), 33, 62, 200, 249, 
256-257, 735, 739, 742, 755, 896, 922, 925 
address request 〈ICMP 地 址 掩 码 请 求 )，739, 883 
code field (ICMP 代 码 字 段 )，882 
destination unreachable (ICMP 目 的 地 不 可 达 错 误 )， 
100-101, 144, 200, 249, 762, 764—765, 771, 775, 865, 
883-884 
destination unreachable, fragmentation 
required (ICMP 目 的 地 不 可 达 , 需 分 片 但 DF 位 已 设置 )， 
56, 771, 883 
echo reply (ICMP 回 射 应 答 )，735, 741, 883-884 
echo request (ICMP 回 射 请 求 )，735, 739, 741, 883-884 
header, picture of (ICMP 首 部 图 示 )，882 
message daemon, implementation (ICMP 消 息 守护 程序 
实现 )，769-786 
packet too big (ICMP 分 组 太 大 错误 )，56, 771, 884 
parameter problem (ICMP 参 数 问题 错误 ), 720, 883-884 
port unreachable(ICMP 端 口 不 可 达 错 误 ), 249, 253, 257, 
265, 534, 755, 761, 764, 771, 794, 815, 883-884, 925 
redirect (ICMP 重 定向 )，485, 497, 883-884 
router advertisement (ICMP 路 由 器 通告 )，735S$，741， 
883-884 
router solicitation (ICMP 路 由 器 征求 )，735, 883-884 
source quench (ICMP iste K), 771-772, 883 
time exceeded (ICMP 超 时 ), 755, 761, 764, 771, 883-884 
timestamp request (ICMPIĦ JRR ÆJI), 739, 883 
type field (ICMP 类 型 字段 )，882 
ICMP6_FILTER socket option (ICMP6_FILTER 套 接 字 
选项 )，216, 740 
ICMP6_FILTER_SETBLOCK macro, definition of(ICMP6 
_FILTER_SETBLOCK 宏 定义 )，740 
ICMP6, FILTER SETBLOCKALL macro, definition 
of ( ICMP6_FILTER_SETBLOCKALL# E X), 740 
ICMP6, FILTER SETPASS macro, definition of( ICMP6 - 
FILTER SETPASSZE X), 740 
ICMP6 FILTER SETPASSALL macro, definition of (ICMP6_ 
FILTER SETPASSALLZZXE X.), 740 
ICMP6. FILTER WILLBLOCK macro, definition of ( ICMP6 
FILTER WILLBLOCKZGE X), 740 
ICMPé, FILTER WILLPASS macro, definition of (ICMP6 
_FILTER_WILLPASS 宏 定义 )，740 
icmp6_filter structure (icmp6_filter 结 构 ), 193, 216, 
740 
icmpcode, v4 function (icmpcode_v4 函 数 )，765 
icmpcode v6 function (icmpcode_v6ém#), 765 
icmpd program (icmpd 程 序 )，769, 772, 774—786, 946 
icmpd dest member (icmpa_dest 成 员 )，772 
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icmpd err member ( icmpd_err AH). 771, 774, 
783—784 
icmpd errno member (icmpd_errnoftfA), 771 
icmpd.h header (icmpd.h 头 文件 )，775 
JICMPv4 (Internet Control Message Protocol 
version 4), 33-34, 735, 740, 769, 871, 882-884 
checksum (ICMPv44@ #1), 737, 753, 806, 882 
header (ICMPv4 首 部 )，743, 755 
message types (ICMPv4 消 息 类 型 )，883 
ICMPv6 (Internet Control Message Protocol 
version 6), 33-34, 216, 735, 738, 769, 882-884 
checksum (ICMPv6 校 验 和 )，738, 753-754, 882 
header (ICMPv6 首 部 )，744, 755 
message types (ICMPv6 消 息 类 型 )，884 
multicast listener done (ICMPv6 多 播 收 听 者 结束 )，884 
multicast listener query (ICMPv6 多 播 收听 者 查询 )，884 
multicast listener report (ICMPv6 多 播 收听 者 汇报 )，884 
neighbor advertisement (IJCMPv6 邻 居 通 告 )，884 
neighbor advertisement, inverse (JCMPv6 反 向 邻居 通 
告 )，884 
neighbor solicitation (JCMPv6 邻 居 征 求 )，884 
neighbor solicitation, inverse 〈ICMPv6 反 向 邻居 征求 )， 
884 
socket option (ICMPv6 套 接 字 选项 )，216 
type filtering (IJCMPv6 类 型 过 滤 )，740-741 
id program (id 程 序 )，431 
ident member (ident 成 员 )，405 
identification field, IPv4 (IPv4 标 识字 段 )，870 
IEC (International Electrotechnical Commission), 26, 950 
IEEE (Institute of Electrical and Electronics 
Engineers), 26, 509, 550, 879, 950 
TEEE-IX, 26 
IETF (Internet Engineering Task Forcc), 28, 947 
if announcemsghdr structure (i f_ announcemsghdr 
SERJ), 487 
definition of (1£ arnouncemschár£ZifJxE V), 488 
if freenameindex function (if freenameindex Ñ 
XO. 504-508 
definition of (if_freenameinaex 函 数 定义 )，504 
source code (if_freenameindex 函 数 源 代码 )，508 
if index member (if_index 成 员 )，504, 903 
if indextoname function (if_indextoname 函 数 )， 
504—508, 566, 568, 593 
definition of (if_indextoname 函 数 定义 )，504 
source code (jif_ijinaextoname 函 数 源 代码 )，506 
if msghdr structure (if_msghdr 结 构 )，487, 502 
definition of (if_mschar 结 构 定义 )，488 
if name member (if_name 成 员 )，504, 508, 903 
if nameindex function (if_nameindex 函 数 )，486， 
504—508 
definition of (i£ nameindexiSN GE X), 504 
source code (if_nameindex 函 数 源 代码 )，507 
if nameindex structure (i f_nameindex4##J), 504, 
507—508, 903 
definition of (if_nameindex 结 构 定 义 )，504 
if nametoindex function (if_nametoindqex 函 数 )， 


486, 504—508, 566—567, 569 
definition of (if_nametoindex 函 数 定义 )，504 
source code (if_nametoindex 函 数 源 代 码 )，505 

ifa msghdr structure (ifa_msghdr##J), 487 
definition of (ifa_msghar 结 构 定义 )，488 

ifam addrs member (ifam_addrs 成 员 )，489, 493 

ifc buf member (ifc_buf 成 员 )，469-470 

ifc len member (ifc_len 成 员 )，77, 468, 470 

ifc reg member (ifc_reg 成 员 )，469 

ifconE structure (ifconf 结 构 )，77, 467-468, 470 
definition of (ifconf 结 构 定 义 )，469 

ifconfig program (ifconfig 程 序 )，23, 25, 103, 234, 
471, 480 

IFF BROADCAST constant (IFF BROADCAST" {Hi ), 
480 

IFF POINTOPOINT constant C IFF POINTOPOINT TÉ 
ii), 480 

IFF. PROMISC constant (IFF. PROMISC? (HD, 792 

IFF_UP constant (IFF_UP 常 值 )，480 

ifi hlen member (ifi_hlen 成 员 )，473, 478, 502 

ifi index member (ifi_index 成 员 )，502 

ifi info structure (ifi_info 结 构 )，469, 471, 473, 475, 
478, 484, 500, 502, 608 

ifi_next member (ifi_next 成 员 )，471, 478 

ifm adárs member (ifm_addrs 成 员 )，489, 493 

ifm type member (ifm_type 成 员 )，502 

ifma msghdr structure (ifma_msghar4##j), 487 
definition of (ifma_msghar 结 构 定 义 )，488 

ifmam addrs member (ifmam_addrs 成 员 )，489 

IFNAMSIZ constant 《IFNAMSIZ 常 值 )，504 

ifr addr member (ifr_addr 成 员 )，469, 480-481 

ifr broadadár member (ifr_broadaddr 成 员 )， 
469, 481, 484 

ifr data member (ifr_data 成 员 )，469 

ifr dstaddr member (ifr_dstadGr 成 员 ), 469, 481, 
484 

ifr flags member (ifr_flags 成 员 )，469, 480-481 

ifr_metric member (ifr_metric 成 员 )，469, 48] 

ifr_name member (ifr_name 成 员 )，470, 480 

ifreq structure (ifreq 结 构 )，467-468, 470, 475, 477, 
480, 484, 568 
definition of (ifreqg 结 构 定义 )，469 

IFT_NONE constant (IFT_NONE 常 值 )，591 

IGMP (Internet Group Management Protocol), 33-34, 556, 
735, 739—740, 871 
checksum (IGMP 校 验 和 )，753 

ILP32, programming model (ILP3248£2EiX!), 28 

imperfect multicast filtering 〈 不 完备 多 播 过 滤 )，555 

implementation (实现 ) 
ICMP message daemon (ICMP 消 息 守护 程序 实现 )， 

769—786 

ping program (ping 程 序 实现 )，741-754 
traceroute program (traceroute 程 序 实现 ), 755-768 

imr interface member (imr_interface 成 员 )， 
560, 562, 568 

imr multiaddr member (imr multiaddrHL 5), 


* 3| 775 
— - rr 和 9 775 


560, 562 
imr sourceaddr member (imr_sourceaddr 成 员 )， 
562 
IN6 IS ADDR LINKLOCAL macro, definition of (IN6 IS 
ADDR LINKLOCALZE;E X.), 360 
IN6, IS ADDR LOOPBACK macro, definition of CIN6_ 
IS_ADDR_LOOPBACK# Æ X), 360 
IN6_IS_ADDR_MC_GLOBAL macro, definition of (IN6_ 
IS_ADDR_MC_GLOBAL#%# XM), 360 
IN6_IS_ADDR_MC_LINKLOCAL macro, definition 
of CIN6_IS_ADDR_MC_LINKLOCAL## X), 360 
IN6.IS ADDR MC, NODELOCAL macro, definition 
of (IN6 IS ADDR MC NODELOCALJA E X), 360 
IN6 IS ADDR MC. ORGLOCAL macro, definition 
of (IN6 IS ADDR MC ORGLOCALZ:jE X), 360 
IN6 IS ADDR MC SITELOCAL macro, definition 
of (IN6 IS ADDR MC SITELOCALZ:&E Y.), 360 
IN6 IS ADDR MULTICAST macro, definition of (IN6 - 
IS_ADDR_MULTICAST# iE X), 360 
IN6.IS ADDR SITELOCAL macro, definition of (IN6 . 
IS_ADDR_SITELOCALE X), 360 
IN6_IS_ADDR_UNSPECIFIED macro, definition 
of (IN6 IS ADDR UNSPECIFIEDZ;XE X.), 360 
IN6 IS ADDR V4COMPAT macro, definition of (IN6_IS 
_ADDR_V4COMPATH# ZX), 360 
IN6_IS_ADDR_V4MAPPED macro (IN6_IS_ADDR_V4MAPPED 
宏 定 义 )，355, 360, 362, 745 
definition of (IN6_IS_ADDR_V4MAPPED 宏 定义 )，360 
in6, addr structure (in6 addrf£ifj), 193,561 
definition of (in6_adar jÆ X), 71 
in6 pktinfo structure (in6 pktinfo£iMj]), 588, 
615-617, 731 
definition of Cin6 pktinfofüfjzE Y), 616 
INGADDR ANY INIT constant (IN6ADDR ANY, INIT 
常 值 )，103, 320, 322, 412, 616, 881 
INGADDR LOOPBACK INIT constant (INGADDR LOOPBACK 
INITIA), 880 
in6addr any constant (in6addr_any 常 值 )，103, 881 
in6addr loopback constant Cin6addr_loopback 
fH), 880 
in_addr structure (in_addar4#4#J), 70, 193, 308, 310, 
358, 560, 563 
definition of (in_addr 结 构 定 义 )，68 
in addr t datatype (in_addr_t 数 据 类 型 )，69-70 
in cksum function (in_cksum 函 数 )，753 
source code 〔〈in_cksum 函 数 源 代码 )，75S3 
in pcbdetach function (in_pcbdetach 函 数 )，140 
in_port_t datatype (in_port_t 数 据 类 型 )，69 
INADDR_ANY constant (INADDR_ANY 常 值 )，13，53， 
102-103, 122, 126, 214, 242, 288, 320, 322, 412, 534, 
560—563, 859, 876, 915 
INADDR_LOOPBACK constant ( INADDR_LOOPBACK 3 
ti), 876 
INADDR_MAX_LOCAL_GROUP constant (INADDR_MAX_ 
LOCAL GROUP?ÉÓÉD, 915 
INADDR NONE constant(INADDR NONEjf fi), 82,901,915 


in-addr.arpa domain (in-addr.arpaiX&), 304,310 

in-band data《 带 内 数据 )，645 

incarnation, definition of (44.452), 44 

incomplete connection queue (未 完成 连接 队列 )，104 

index, interface 接口 索引 )，217, 489, 498, 502, 504—508, 
560—563, 566, 569, 577, 616, 731 

INET6 ADDRSTRLEN constant ( INET6_ADDRSTRLEN 
常 值 )，83, 86, 901 

inet6_opt_append function (inet6 opt append 
BO, 723-724 
definition of (inet6_opt_appenad 函 数 定义 )，723 

inet6 opt find function (inet6_opt_find 函 数 )， 
725 
definition of (inet6 opt findiKNKE X), 724 

inet6 opt finish function ( inet6 opt, finish 
函数 )，723-724 
definition of (inet6_opt_finish 函 数 定义 )，723 

inet6_opt_get_val function (inet6 opt get vali 
30, 725 
definition of (inete opt get valiK/'ÉGE X), 724 

inet6 opt init function (inet6 opt initik4, 
723—724 
definition of (inet6_opt_init 函 数 定 义 )，723 

inet6_option_alloc function (inet6 option alloc 
PRO, 732 

inet6 option append function ( inet 6 option 
_append 函 数 )，732 

inet6 option find function (inet6 option find 
函数 )，732 

inet6 option init function (inet6 option init 
FRED, 732 

inet6 option, next function (inet6 option next 
函数 )，732 

inet6 option space function ( inet6 option space 
BD, 732 

inet6 opt next function (inet6_opt_next 函 数 )， 
724—125 
definition of (inet 6_opt_next XUE X), 724 

inet6_opt_set_val function (inet6 opt set val 
XO, 723-725 
definition of (inet6 opt set valiEGE X), 723 

inet6 rth add function (inet6 rth addi ži), 
727-728 
definition of (inet6_rth_ada 函 数 定义 )，727 

inet6_rthdr_add function (inet6_rthar_add& 
3X0, 732 

inet6_rthdr_getaddr function (inet 6_rthdr_ 
getaddrmi MM), 732 

inet6_rthdr_getflags function (inet 6_rthdr_ 
getflagsh#), 732 

inet6_rthdr_init function ( inet6_rthdr_init 
B, 732 

inet6 rthdr lasthop function (inet6_rthdr_ 
lasthopiK34K), 732 

inet6 rthdr reverse function ( inet6_rthdr_ 
reversert), 732 

inet6_rthdr_segments function ( inet6_rthdr_ 
segmentsM%#), 732 
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inet6 rthdr space fimetion (inet6_rthar_space 函 数 )， 
732 

inet6 rth getaddr fimetion (inet 6_rth_getaddr HO), 
728, 731 
definition of (inet 6_rth_getadarm MEM), 728 

inet6 rth, init function (ineté6_rth_init Me), 
727-728 
definition of (inet6_rth_initi ie X), 727 

inet6 rth reverse funcion (inet.6_rth_reverse Ñ% ), 
728, 730 
definition of (inet6_rth_reverse 函 数 定义 )，728 

inet6 rth segments function (inet6 rth segment s FA 
YO, 728,731 
definition of (inet6_rth_segments 函 数 定义 )，728 

inet6 rth space function (inet6_rth_space AM 
NO. 727-728 
definition of C(inet6 rth spacetf WE XL), 727 

inet6 srcrt, print function(inet6 srcrt print XD, 
730—731 

INET_ADDRSTRLEN constant ( INET. ADDRSTRLEN 党 
值 )，83, 86, 901 

inet addr function (inet_addr 函 数 )，9, 67, 82-83, 
93 
definition of (inet_adar 函 数 定义 )，82 

inet aton function Cinet atonPXD, 82-83, 93, 314 
definition of (inet atonPANIGE X), 82 

inet ntoa function(inet ntoaPK3*), 67, 82-83, 343, 
685 
definition of (inet_ntoa 函 数 定义 )，82 

inet, ntop function (inet_ntop%), 67, 82-86, 93, 
110, 309, 341, 343, 345, 350, 593, 731 
definition of (inet_ntop 函 数 定义 )，83 
IPv4-only version, source code (inet_ntop 函 数 仅 适合 

IPv4 版 本 的 源 代码 )，85 

inet pton function (inet_pton 函 数 )，8-9, 11, 67, 
82—85, 93, 290, 333, 343, 930 
definition of (inet_pronM AGE X), 83 
IPv4-only version, source code (inet_pton 函 数 仅 适 合 

IPv4 版 本 的 源 代 码 )，85 

inet pton loose function (inet, ptor, loose 
BO, 93 

inet srcrt add function (inet, srcrt, addiR D. 
713,715 

inet srcrt init function (inet srcrt, init P 
#O, 712,715 

inet srcrt print function (inet srcrt print 
AZO, 714 

inetd program inetd 程 序 ), 61, 114, 118-119, 154, 363, 
371—380, 587, 613-614, 825, 850, 897, 934, 945 

Information Retrieval Service〈 信 息 检索 服务 )， 见 IRS 

INFTIM constant (INFTIM 常 值 )，184, 902 

init program (init 程 序 )，132, 145,938 

init_v6 function (init_v6pA%), 749 

initial thread (初始 线程 );，676 

in.rdisc program (in.rdisc 程 序 )，735 

Institute of Electrical and Electronics Engineers (电气 电子 


工程 师 协 会 ) ， 见 IEEE 
intl6_t datatype (int16_ 上 数据 类 型 )，69 
int32 t datatype (int32 tg. 69 
int8_t datatype (int8_t 数 据 类 型 )，69 
interface (接口 》 
address, UDP, binding (UDP 接口 地 址 捆绑 )，608-612 
configuration, ioctl function (ioct1 函 数 接口 配置 )， 
468-469 
index (接口 索引 ), 217, 489, 498, 502, 504—508, 560—563, 
566, 569, 577, 616, 731 
index, recvmsg function, receiving (recvmsg 函 数 接收 
IZOR), 588-593 
logical GZH), 877 
loopback 〈 环 回 接口 )，23, 792, 799, 809, 876-877 
message-based (基于 消息 的 接口 )，858 
operations, ioctl function (ioct1i 函 数 接口 操作 )， 
480—481 
UDP determining outgoing (UDP 确定 外 出 接口 )， 
261-262 
interface-local multicast scope (接口 局 部 多 播 范围 )， 
552-553 
International Electrotechnical Commission (国际 电工 委员 
会 )， 见 IEC 
International Organization for Standardization (国际 标准 化 
组 织 )， 见 ISO 
Internet ( 因特网， 网际 网 )，5, 22 
Internet Assigned Numbers Authority (因特网 已 分 配 数值 
权威 机 构 )， 见 IANA 
Internet Control Message Protocol (网 际 网 控制 消息 协议 )， 
见 ICMP 
Internet Control Message Protocol version 4 (网际 网 控制 消 
息 协议 版 本 4)， 见 ICMPv4 
Internet Control Message Protocol version 6( 网 际 网 控制 消 
息 协 议 版 本 6)， 见 ICMPv6 
Internet Draft 《因特网 草案 )，947 
Internet Engineering Task Force( 因特网 工程 任务 攻坚 组 )， 
见 IETF 
Internet Group Management Protocol (网 际 网 组 管理 协 
议 )， 见 IJGMP 
Internet Protocol (网 际 网 协议 )， 见 IP 
Internet Protocol next generation《 下 一 - 代 网 际 网 协议 )， 见 
IPng 
Internet Protocol version 4 网际 网 协议 版 本 4)， 见 IPv4 
Internet Protocol version 6〔( 网 际 网 协议 版 本 6)， 见 IPv6 
Internet service provider《 因 特 网 业务 供应 商 )， 见 ISP 
Internetwork Packet Exchange ( 网络 间 分 组 交换 )， 见 IPX 
interoperability( 互 操作 性 》 
IPv4 and IPv6 〈IPv4 和 IPv6 之 间 的 互 操作 性 )，353-362 
IPv4 client IPv6 server (IPv4 客 户 和 IPv6 服 务 器 之 间 的 
互 操作 性 )，354-357 
IPv6 client IPv4 server (IPv6 客 户 和 IPv4 服 务 器 之 间 的 
互 操 作 性 )，357-359 
source code portability 〔〈 源 代码 可 移植 性 与 互 操作 性 )， 
361 
interprocess communication (进程 间 通 信 )， 见 IPC 
interrupts, software〈 软 件 中 断 )，129 
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inverse, ICMPv6 neighbor advertisement(ICMPv6 反 向 邻居 
通告 )，884 
ICMPv6 neighbor solicitation (ICMPv6 邻 居 征 求 )，884 
LO 
asynchronous (异步 /0 )，160, 468, 663 
definition of, Unix (Unix LO 定义 )，399 
model, asynchronous 《异步 1O 模 型 )，158-159 
model, blocking (A 2E3XUOSA), 154—155 
model, comparison of (IJO 模 型 比较 )，159-160 
model, I/O, multiplexing (IO 复 用 模型 )，156-157 
model, nonblocking (JEBE ESCO), 155-156 
model, signal-driven 〈 信 和 号 驱动 式 IO 模 型 )，157-158 
models (/OBU), 154-160 
multiplexing (OSH), 153-189 
multiplexing /O, model (JI/O 复 用 模型 )，156-157 
nonblocking ( 3EBH 3€ 3XU/O), 88, 165, 234-235, 388, 398, 
435-464, 468, 665, 669, 671, 919, 945 
signal-driven〈 信 号 驱动 式 HO)，200, 234—235, 663-673 
standard (标准 WO)，168, 344, 399-402, 409, 437, 935, 
952 
synchronous (同步 WO)，160 
ioctl function (ioctl), 191, 222, 233-234, 399, 
403-404, 409, 420, 465-469, 474-475, 477-478, 
480—485, 500, 538, 566, 568, 585, 647, 654, 664, 666, 
669, 790, 792, 799, 852, 857, 868 
ARP cache operations 〈ioct1 函 数 ARP 商 速 缓存 操作 )， 
481-483 
definition of (ioctlPS XE X.), 466, 857 
file operations (ioct1 函 数 文件 操作 )，468 
interface configuration (ioct1 函 数 接口 配置 )，468-469 
interface operations 《ioct1 函 数 接口 操作 )，480-481 
routing table operations 《iocct1 函 数 路 由 表 操 作 )， 
483-484 
socket operations 〔ioct1 函 数 套 接 字 操作 )，466-467 
STREAMS (iocctl 函 数 流 处 理 )，857-858 
IOV MAX constant (IOV_MRAX 常 值 )，390 
iov_base member (iov_base 成 员 )，389 
iov len member (iov_len 成 员 )，389, 392 
iovec structure (iovec 结 构 )，389-391, 393, 601 
definition of (iovec 结 构 定 义 )，389 
IP (Internet Protocol), 33 
fragmentation and broadcast (IP 分 片 与 广播 )，537-538 
fragmentation and multicast (IPH 5; £4), 571 
Multicast Infrastmucture(IP 多 播 基础 设施 ), 571, 584-585 
Multicast Infrastructure session 
announcements (IP 多 播 基础 设施 会 话 声 明 )，571-575 
routing (IP 路 由 )，869 
spoofing (IP 欺骗)，108, 948 
version number field (IP 版 本 号 字段 )，869, 871 
ip6 mtuinfo structure, definition of (ip6 mtuinfo 
结构 定义 )，619 
ip6.arpa domain (ip6.arpa 域 )，304 
ip6m addr member (ip6m_adark&), 619 
ip6m mtu member (ip6m_mtu 成 员 )，619 
IP. ADD MEMBERSHIP Socket option ( IP_ADD_ 
MEMBERSHIP 套 接 字 选 项 )，193, 560, 562 


IP ADD SOURCE MEMBERSHIP socket option ( IP. 
ADD. SOURCE MEMBERSHIPTEHEEKJAJH), 193,560 

IP. BLOCK, SOURCE socket option ( IP. BLOCK, SOURCE 
ERTE), 193, 560, 562 

IP. DROP. MEMBERSHIP socket option (IP. DROP. MEMBER- 
SHIP FI), 193, 560-561 

IP_DROP_SOURCE_MEMBERSHIP socket option 
(TP_DROP_SOURCE_MEMBERSHIP 套 接 字 选项 )， 
193, 560 

IP HDRINCL socket option (TIP_HDRINCL 套 接 字 选 项 )， 
193, 214, 710, 736—738, 753, 755, 790, 793, 805-806 

IP MULTICAST. IF socket option (IP. MULTICAST. IF 
套 接 字 选 项 )，193, 559, 563,945 

IP MULTICAST, LOOP socket option (IP_MULTICAST_ 
LOOP 套 接 字 选项 )，193, 559, 563 

IP_MULTICAST_TTL socket option (IP MULTICAST.. 
TITL 套 接 字 选 项 )，193, 215, 559, 563, 871,945 

IP. OPTIONS socket option (IP_OPTIONS 套 接 字 选 项 )， 
193, 214, 709—710, 718, 733, 945 

IP RECVDSTADDR socket option ( IP RECVDSTADDR 
Ek Pi), 193, 211, 214, 251, 265, 392-396, 
587-588, 590, 592, 608, 616, 620, 666, 895 
ancillary data, picture of (IP_RECVDSTADDR 套 接 字 选 项 

作为 辅助 数据 的 图 示 )，394 

IP_RECVIF socket option (IP_RECVIFÆ FAW), 
193, 215, 395, 487, 588, 590, 592, 608, 620, 666 
ancillary data, picture of ( IP_RECVIF 套 接 字 选项 作为 畏 

助 数据 的 图 示 )，591 

IP. TOS socket option (IP_TOS 套 接 字 选项 )，193, 215, 
870, 895 

IP TTL socket option 《IP_TTL 食 接 字 选 项 )，193, 215, 
218, 755, 761, 871, 895 ` 

IP_UNBLOCK_SOURCE socket option ( IP_UNBLOCK_ 
SOURCE 套 接 字 选 项 )，193, 560 

ip id member (ip_id 成 员 )，740, 806 

ip len member (ip_len 成 员 )，737, 740, 806 

ip mreq structure (:p mregfit4), 193, 560, 568 
definition of Cip mreaf&fgiE X.), 560 

ip mreq source structure (ip_mreq_source###J), 
193 ] 
definition of (1p mreg sourcef£ifga X), 562 

ip of£ member (ip offJk/A), 737,740 

IPC (interprocess communication), 411-412, 545-547, 675 

ipi6, addr member (ipi6 addrHE/i), 616 

ipi6_ifindex member (ipi6. ifindex 成 员 )，616 

ipi addr member (ipi_adar 成 员 )，588, 901 

ipi ifindex member (ipi_ifindex 成 员 )，588, 901 

IPng (Internet Protocol next generation), 871 

ipopt dst member (ipopt_dstMA), 714 

ipopt_list member (ipopt listHk), 714 

ipoption structure, definition of (ipoption 结 构 及 其 
定义 )，714 

IPPROTO ICMP constant (IPPROTO_ICMP 常 值 )，736 

IPPROTO ICMPV6 constant (IPPROTO_TCMPV6 常 值 )， 
193, 216, 738, 740 

IPPROTO, IP constant ( IPPROTO_IB 常 值 )，214， 
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394-395, 591, 710 
IPPROTO, IPV6 constant (7$ ff( ), 216, 395, 615-619, 722, 
727 
IPPROTO RAW constant (I PPROTO_RAW*# (fi), 737 
IPPROTO_SCTP constant (TPPROTO_SCTP 常 值 )，97, 
222, 288 
IPPROTO_TCP constant (IPPROTO_TCP 常 值 )，97, 219， 
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Meyer, D., 552-553, 951 
MF (more fragments flag, IP header), 871 
MIB (management information base), 496 
Milliken, W., 529, 952 
Mills, D. L., 579, 951 
minimum link MTU (最 小 链 路 MTU)，55 
minimum reassembly buffer size (最 小 重组 缓冲 区 大 小 )，57 
mkfifo function (mkfifo 函 数 )，421 
mktemp function (mktemp 函 数 )，834 
mmap function (mmap S, 26, 830, 836 
MODE, CLIENT constant (MODE CLIENT?R1H), 582 
modules, STREAMS (iiH), 852 
Mogul, J. C., 56, 875,951 
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monitor mode 《监视 器 模式 )，787 

Moore, K., 889, 948 

more fragments flag, IP header (IP 首 部 还 有 片段 标志 )， 见 
MF 

MORE, f1ag member (MORE flagJ/ h), 867 

MORECTL constant (MORECTL 4H), 857 

MOREDATA constant (MOREDATA?É {H ), 857 

Morneault, K., 36, 280, 954 

Moskowitz, B., 876, 952 

most significant bit〈 最 高 有 效 位 )， 见 MSB 

mrouted program (mrouteda 程 序 )，735, 886-887 

MRP (multicast routing protocol), 556 

MSB (most significant bit), 77 

MSG, ABORT constant (MSG_ABORT 常 值 )，225, 301 

MSG_ADDR_OVER constant (MSG. ADDR, OVER7É ffl), 
225,271 

MSG, ANY constant (MSG_ANY 常 值 )，857 

MSG, BAND constant (MSG_BAND 常 值 )，857 

MSG_BCAST constant (MSG_BCRAST 常 值 )，391-392 

MSG_CTRUNC constant (MSG_CTRUNC 常 值 )，391-392 

MSG_DONTROUTE constant (MSG_DONTROUTE 常 值 )， 
199, 388, 391 

MSG_DONTWALT constant (MSG_DONTWRAIT 常 值 )，388， 
391, 398 

MSG EOF constant (MSG_EOF 常 值 )，225, 301 

MSG, EOR constant (MSG_EOR 7f; fH 2, 277, 285, 389, 
391-392, 432, 936 

MSG_HIPRI constant (MSG_HIPRI 常 值 )，857 

MSG MCAST constant (MSG_MCRAST 常 值 )，391-392 

MSG, NOTIFICATION constant (MSG, NOTIFICATION 
常 值 )，225,277, 279-280, 290, 391-392 

MSG_OOB constant (MSG_OOB 常 值 )，207, 388, 391-392, 
646—648, 650-651, 654, 657, 659, 662 

MSG, PEEK constant(MSG_PEEK 常 值 ),388, 391, 398-399, 
409, 421, 895, 934 

MSG, PR BUFFER constant (MSG PR, BUFFER % ffi), 
225 

MSG, PR, SCTP constant (MSG_PR_SCTP 常 值 )，225 

MSG, TRUNC constant (MSG_TRUNC 常 值 )，391-392, 594 

MSG, UNORDERED constant (MSG_UNORDERED 常 值 )， 
225, 629 

MSG_WAITALL constant (MSG_WAITALL 常 值 )，90, 388, 
391, 435 

msg accrights member (msg accrightsJ A), 
390, 421, 425, 427 

msg accrightslen member (msg accrightslen 
成 员 )，390 

msg. control member (msg_control 成 员 ), 390-391, 
394—396, 398, 421, 425, 590 

msg controllen member (msg controllenME5i), 
77, 390-392, 394-396, 398 

msg. flags member (msg flags member i), 225, 
277, 280, 285, 389-392, 394, 588, 590, 594, 936 

msg iov member (msg iov Ui), 390-391 

msg iovlen member (msg iovlenfE/i), 390-391 

msg name member (msg_name 成 员 )，390-391, 394 


msg namelen member (msg namelen W B ), 77, 
390—391, 394, 590 
msghdr structure (msghdr 结 构 )，77, 277, 389—393, 395, 
398, 421, 428, 588, 590, 594, 601, 729 
definition of (msghdr 结 构 定 义 )，390 
MSL (maximum segment lifetime), 41, 43—44, 151, 203, 915 
definition of (MSL 定 义 )，43 
MSS (maximum segment size), 42, 57—60, 63, 208, 219, 237, 
895, 914, 920-921 
definition of (MSS X), 38 
option, TCP (TCP MSS 选 项 )，38 
MTU (maximum transmission unit), 18, 23, 25, 56-57, 59, 
537—538, 595, 737, 772, 874, 884, 914 
definition of (MTU 定 义 )，55 
discovery, path, definition of (路 径 MTU 发 现 定义 )，56 
minimum link (最 小 链 路 MTU)，55 
path (路 径 MTU)，59, 63, 219, 444, 771, 874, 921, 951 
path, definition of (路 径 MTU 定 义 )，56 
multicast (多 播 )，549-585 
address 《多 播 地 址 )，549-553 
address, administratively scoped IPv4〈 管 理 上 划分 范围 
的 IPv4 多 播 地 址 )，553 
address, ethernet mapping, picture of, IPv4 (IPv4 多 播 地 
址 到 以 太 网 地 址 的 映射 图 示 )，550 
address, ethernet mapping, picture of, IPv6 (IPv6 多 播 地 
址 到 以 太 网 地 址 的 映射 图 示 )，550 
address, IPv4 (IPv4 多 播 地 址 )，549-551 
address, IPv6 (IPv6 多 播 地 址 )，551-552 
address, picture of, IPv6 (IPv6 多 播 地 址 图 示 )，551 
backbone (多 播 主干 )， 见 MBone 
filtering, imperfect〈 非 完备 多 播 过 滤 )，555 
group address〈 多 播 组 地 址 )，549 
group, all-hosts〈 所 有 主机 多 播 组 )，550 
group, all-nodes (所 有 节点 多 播 组 )，552 
group, all-routers (所 有 路 由 器 多 播 组 );，550, 552 
group ID (多 播 组 ID)，549 
group, link-local〔 链 路 局 部 多 播 组 )，551 
group, transient《 临 时 多 播 组 )，551 
group, well-known《 众 所 周知 的 多 播 组 );，551, 571 
IP fragmentation and (IP 分 片 与 多 播 )，57] 
listener done, ICMPv6 (ICMPv6 多 播 收听 者 结束 )，884 
listener query, ICMPv6 (ICMPv6 多 播 收听 者 查询 )，884 
listener report, ICMPv6 (ICMPv6 多 播 收 听 者 汇报 ), 884 
on WAN (WAN 上 的 多 播 )，556-558 
routing protocol (多 播 路 由 协议 )， 见 MRP 
scope〈 多 播 范 围 )，360, 552-553 
scope, admin-local (管区 局 部 多 播 范 围 )，552 
scope, continent-local (大 洲 局 部 多 播 范 围 )，552 
scope, global (全 球 多 播 范围 )，552-553 
scope, interface-local 《接口 局 部 多 播 范 围 )，552-553 
scope, link-local ( 链 路 局 部 多 播 范围 )，552-553 
scope, organization-local (组 织 机 构 局 部 多 播 范围 )， 
552—553 
scope, region-local (地 区 局 部 多 播 范围 )，552 
scope, site-local (网 点 局 部 多 播 范围 )，552-553 
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sending and receiving〈 多 播发 送 与 接收 )，575-579 
session (多 播 会 话 )，553 
session, SSM (多 播 会 话 SSM)，559 
socket option ( EHEZ PAI), 559-564 
versus broadcast (多 播 与 广播 对 比 )，553-556 
versus unicast (多 播 与 单 播 对 比 )，553 

multihomed (多 宿 的 ), 52-54, 103, 122, 147, 247-248, 250, 
262, 312, 314, 324, 532-533, 561, 582, 786, 796, 877, 
925 

multihoming ( #4), 31 

multiplexor ( £ 2557 H1 35), STREAMS, 852-853 

mutex (HJF), 697-701 

MX (mail exchange record, DNS), 304, 308, 310, 349 

my lock init function (my lock init BA, 
833—834, 836 

my lock release function (my lock release M 
1D, 836 

my. lock wait function (my_lock_waite¥O, 836 

my. open function (my openPR X, 421, 423, 427 

my read function (my readPW Xi), 92,692 

mycat program (mycat 程 序 )，421-422 

mydg echo function (mydg_echo %1), 609—611 


Nagle algorithm (Nagle 算 法 ), 219-221, 229, 390, 402, 923, 
928 
definition of (Nagle 算 法 定义 )，219 

name server (名 字 服 务 器 )，305-306，310，361，788， 
793-794, 803, 811-812 

Narten, T., 551, 879, 949, 951 

neighbor advertisement, ICMPv6 (ICMPv640 33H 5 ), 884 
inverse, ICMPv6 (ICMPv6 反 向 邻居 通告 )，884 

neighbor discovery 《邻居 发 现 )，881 

neighbor solicitation, ICMPv6 (ICMPv6 邻 居 征 求 )，884 
inverse, ICMPv6 (ICMPv6 反 向 邻居 征求 )，884 

Nemeth, E., 38, 951 

Net/1, 21, 718 

Net/2, 21, 737 

Net/3, 21, 388 

NET RT DUMP constant (NET_RT_DUMP 常 值 );，497 

NET RT FLAGS constant ( NET RT FLAGS fi[). 
497-498 

NET RT IFLIST constant (NET_RT_IFLIST# MH), 
497—500 

net rt iflist function (net rt iflistPÁA*L, 
500, 502, 505—506, 508 

NetBIOS, 952 

NetBSD, 20-21 

netbuf structure (netbuf4i#J), 856 

«netdb.h» header (<netdb.h> 头 文件 )，308, 315, 348 

netent structure (netent£ifj), 348 

«net/if arp.h» header (<net /if_arp.h> 头 文件 )， 
481 

«net/if dl.h» header (-net/if dl.n»3k itt), 
486 

«net/if.h» header (<net /if.h> 头 文件 )，480, 504 

<netinet/icmp6.h> header (<netinet/icmp6.h> 


头 文件 )，740 

<netinet/in.h> header (<netinet /in.h> 头 文件 )， 
68, 71-72, 83, 103, 120, 616, 619, 736 

«netinet/ip var.h» header («netinet/ip var.h»3kX 
f£, 714 

«netinet/udp var.h» header («netinet/udp var.h» 
KIT), 499 

«net/pfkeyv2.h» header (<net/pfkeyv2.h> kM 
fF), 512 

«net/route.h» header («net /route.h» kX), 
483, 487, 489 

Netscape, 452, 461 

netstat program( net stat Fd), 23-24, 31, 37, 40, 53, 
63, 126-128, 141, 151, 237, 248, 258-259, 349, 379, 480, 
484—485, 576, 612, 896—897, 917, 926 

Netware, 952 

network (网 络 ) 
byte order C 网络 字 节 序 )，69, 79, 82, 110, 152, 311-312, 

319, 737—738, 740, 918 

interface tap〈 网 络 接口 龙头 )， 见 NIT 
topology, discovering〈 网 络 拓扑 发 现 )，23-25 
virtual (虚拟 网 络 )，885-889 
virtual terminal 〈 网络 虚拟 终端 )， 见 NVT 

Network File System 〈 网 络 文件 系统 )， 见 NFS 

Network Information System (网 络 信息 系统 )， 见 NIS 

Network News Transfer Protocol ( 网 络 新 闻 传 送 协 议 )， 见 
NNTP 

Network Provider Interface〈 网 络 提供 者 接口 )， 见 NPI 

Network Time Protocol (网 络 时 间 协 议 )， 见 NTP 

new generic socket address structure( 新 的 通用 套 接 字 地 址 
结构 )，72-73 

next header field, IPv6 (IPv6 下 一 个 首部 字段 )，872 

next pcap function (next. pcapPA D, 808 

nfds_t datatype (nfds_t MH), 184 

NFS (Network File System), 62, 208, 213, 239, 596-597, 
789 

NI DGRAM constant (NI_DGRAM 常 值 )，340-341 

NI_NAMEREQD constant (NI_NAMEREQD 常 值 )，340, 350 

NI, NOFQDN constant (NTI_NOFQEDN 常 值 )，340-341 

NI_NUMERICHOST constant (NI_NUMERICHOST 常 值 )， 
340—341, 933 

NI NUMERICSCOPE constant (NI NUMERICSCOPE W% 
f), 340-341 

NI, NUMERICSERV constant (NI NUMERICSERV/TÉ (ii), 
340—341, 933 

nibble (四 位 组 )，304 

Nichols, K., 215, 870-871, 948, 952 

Nielsen, H. F., 294, 949 

NIS (Network Information System), 306 

NIT (network interface tap), 788, 793 

NNTP (Network News Transfer Protocol), 62 

no operation (无 操作 )， 见 NOP 

NO ADDRESS constant (NO_ADDRESS 常 值 )，308 

NO. DATA constant (NO_DATA 常 值 )，308 

NO, RECOVERY constant (NO_RECOVERY 常 值 )，308 

nonblocking 〈 非 阻塞 ) 
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accept function (dEfH3KacceptrE XX), 461—463 
connect function〈 非 阻塞 connect 函 数 )，448-461 
IO( 非 阻塞 式 IO ),88, 165, 234—235, 388, 398, 435-464, 
468, 665, 669, 671, 919, 945 

VO model 〈 非 阻塞 式 IO 模 型 )，155-156 

nonlocal goto 〈 非 本 地 踏 转 )，543, 803 

NOP (no operation), 709, 711-714, 718, 733 

Nordmark, E., 28, 216, 397, 719, 738, 744, 878, 880, 949, 
952-953 

normal, STREAMS message ( 流 普通 消息 )，183, 854 

notifications, SCTP (SCTP 通 知 )，625-629 

NPI (Network Provider Interface), 854, 954 

ntohl function (ntohl1#&X), 79,152,918 
definition of (ntoh1 函 数 定 义 )，79 

ntohs function (ntohs 函 数 )，110 
definition of (ntohs EX), 79 

NTP (Network Time Protocol), 62, 530, 536, 561, 575, 585, 
665—666, 672, 951 

ntpd function (ntpda 函 数 )，162 

ntpdata structure (ntpdata 结 构 )，580 

ntp.h header (ntp .h 头 文件 )，580 

NVT (network virtual terminal), 916 


O_ASYNC constant (O ASYNC/É THO, 234-235, 468, 664, 
669 

O NONBLOCK constant (O_NONBLOCK‘# ffi), 234-235, 
468, 669 

O RDONLY constant (O RDONLYTÉÍH), 423 

O. SIGIO constant (O_SIGIOM#{H), 664 

octet, definition of《 八 位 组 定义 )，80 

one-to-many SCTP interface model (一 到 多 SCTP 接 口 模 
型 )，270-272 

one-to-one SCTP interface mode! (一 到 一 SCTP 接 口 模型 )， 
269-270 

Ong, L., 36, 267, 952 

open (HTF: FRO 
active〈 主 动 打 开 )，37-38, 41, 45, 48, 53, 894 
passive〔 被 动 打开 )，37, 41, 45, 48, 52-53, 894 
shortest path first, routing protocol( 开 放 的 最 短路 径 优 先 

路 由 协议 )， 见 OSPF 

simultaneous 《同时 打开 )，40-41 
systems interconnection (FFKAS HIE), LOSI 

open function CopenrÉ X), 135, 370, 415, 421, 423, 427, 
790, 836 

Open Group, The (开放 团体 )，27-28, 952 

Open Software Foundation (开放 软件 基金 会 )， 见 OSF 

OPEN_MAX constant (OPEN_MAX 常 值 )，186 

open_output function (open_output Mi X), 799, 805, 
812 

open, pcap function Copen pcaprPü X, 799,801 

OpenBSD, 20-21, 737 

openfile program (openfile 程 序 )，422-424, 427 

openlog function (openlog 函 数 )，365-367, 370, 378 
definition of (openlog 函 数 定义 )，367 

operating system (HEH RA), ILOS 

OPT length member (OPT_lengthik f), 863, 865 


OPT offset member (OPT_offset Mi), 863,865 
opt val str member (opt_val_str 5i), 194,196 
optarg variable (optarg 变 量 )，516 
opterr variable (opterr 变 量 )，516 
optind variable (optind##), 516 
options 《选项 ) 
IPv4 (IPv4 选 项 )，214, 709-711, 871 
IPv6 (IPv6 选 项 )， 见 TPv6 extension headers 
Socket 〈 套 接 字 选项 ) , 191-238 
TCP 《TCP 选 项 )，38-39 
optopt variable (optopt 变 量 )，516 
organization-local multicast scope (组 织 机 构 局 部 多 播 范 
围 )，552-553 
OS (operating system), 22 
OSF (Open Software Foundation), 27 
OSI (open systems interconnection), 18, 20, 68, 98, 389, 392, 
395, 952 
model (OSI 模型 )，18-19 
OSPF (open shortest path first, routing protocol), 62, 64, 735, 
914 
Ostermann, S., 360, 947 
Otis, D., 36 
out-of-band (44h) 
data( 带 外 数据 )，130, 162, 164-166, 184, 188, 207, 234, 
388, 392, 466, 645—662, 855 
data mark 〈 带 外 数据 标记 )，648, 654 
data, TCP 《TCP 带 外 数据 )，645-653, 661—662 
output ($AH) 
SCTP (SCTP 输 出 )，60-61 
TCP 《TCP 输 出 )，58-59 
UDP (UDP 输 出 )，59-60 
owner, socket (EIPRE), 234-236, 649, 664, 669 
oxymoron (矛盾 修饰 法 )，597 


packet (分 组 》 
information, IPv4 receiving (IPv4 接 收 分 组 信息 )， 
588-593 
information, IPv6 receiving (1Pv6 接 收 分 组 信息 )， 
615-618 
too big, ICMP (ICMP 分 组 过 大 错误 )，56, 771, 884 
PACKET ADD MEMBERSHIP socket option (PACKET ADD 
MEMBERSHIP 套 接 字 选 项 )，792 
PACKET MR PROMISC socket option (PACKET MR, PROMISC 
套 接 字 选项 )，792 
parallel programming (并 行 编程 );，698 
parameter problem, ICMP (ICMP 参 数 问题 错误 )，720， 
883-884 
partial delivery, SCTP (SCTP 部 分 递送 )，622-625 
Partridge, C., 35, 255, 529, 599, 721, 753, 947-948, 950, 952 
passive《 被 动 ) 
close〔 被 动 关 闭 )，39-41, 47-48 
open 〈 被 动 打 开 )，37, 41, 45, 48, 52-53, 894 
socket (被 动 套 接 字 )，104 
PATH environment variable (PATH 环 境 变量 )，23, 113 
path MTU( 路 径 MTU), 59, 63, 219, 444, 771, 874, 921, 951 
definition of (8812 MTUSE X), 56 


path MTU discovery, definition of (路 径 MTU 发 现 定义 )， 
56 

pause function (pauserf EX), 189, 362, 447, 658 

PAWS (protection against wrapped sequence 
numbers), 950 

Paxson, V., 35-36, 56, 208, 280, 948, 952, 954 

payload length field, IPv6 (IPv6 净 入 长 度 字 段 )，872 

pcap_compile function (pcap_compile 函 数 )，789， 
801 

pcap datalink function (pcap_dakalink 函 数 )， 
801, 808 

pcap  lookupdev function (pcap. 1ookupdeviR M, 
799 

pcap. lookupnet function (pcap. 1 ookupnet A), 
801 

pcap next. function (pcap next 4), 808-809 

pcap, open, live function (pcap. open, liveifib, 
799, 809 

pcap pkthdr structure (pcap_pkthar4#i#J), 808 
definition of (pcap_pkthdr 结 构 定义 )，809 

peap_setfilter function (pcap_setfilterm*), 
801, 809 

pcap stats function (pcap stats E, 811 

.PC SOCK MAXBUF constant C .PC. SOCK, MAXBUF 常 
1H», 209 

pending error〈 待 处 理 错误 )，165, 199 

perfect filtering〈 完 备 过 滤 )，555 

Perkins, C., 571, 949 

Perkinson, M., 420 

perror function (perror?A ED, 370 

persistent connection (持续 连接 )，825 

PF KEY constant (PF_KEY 常 值 )，511-512 

PF PACKET constant (PF_PACKET 常 值 )，791-793 

pfmod STREAMS module (pfmod 流 模块 ;，790 

Phan, B. G., 511, 519, 951 

PID (process ID), 135, 234-236, 369, 467, 742 

piggybacking (JÑ H), 42 

PII (Protocol Independent Interfaces), 27 

Pike, R., 12, 951 

ping program (pingf¥/¥-), 25, 33, 62, 169, 209, 237, 265, 
585, 733, 925, 945 
implementation (pingfiY 3:906), 741-754 

ping.h header (ping.h 头 文件 )，742 

Pink, S., 255, 952 

pipe function (piperiRO, 415, 421 

pipe, long-fat (长 胖 管 道 )，39, 209, 236, 599, 950 

pkey structure (pkey 结 构 )，687-688, 690 

Plauger, P. J., 399, 952 

pointer record, DNS (DNS 指针 记录 )， 见 PTR 

Point-to-Point Protocol (点 到 点 协议 )， 见 PPP 

poll function (pol 1 PAX), 142, 145, 151, 153-154, 156, 
163, 168, 182-187, 189, 320, 402-403, 409, 662, 770, 
943 
definition of (pcl1 函 数 定 义 )，182 

POLLERR constant ( POLLERR'É (fi), 183—184, 188 

poll fd structure (po11 fG£fK]), 183, 185-186, 403-404 
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definition of (pollf6 结 构 定义 )，183 
«poll.h» header (<poll.h> 头 文件 )，184 
POLLHUP constant 《POLLHUP 常 值 )，183 
POLLIN constant (POLLIN 常 值 )，183 
polling( 轮 询 )，156, 161, 702 
POLLNVAL constant (POLLNVAL 常 值 )，183 
POLLOUT constant (POLLOUT 常 值 )，183 
POLLPRI constant (POLLPRI 常 值 )，183 
POLLRDBAND constant (POLLRDBAND 常 值 )，183 
POLLRDNORM constant (POLLRDNORM?ÉÍ), 183, 186, 
188 
POLLWRBAND constant (POLLWRBAND/ (f), 183 
POLLWRNORM constant (POLLWRNORM 常 值 )，183 
port GE) 
chargen (字符 生成 服务 端口 ), 61, 189, 349, 380, 930, 934 
daytime《〈 时 间 获 取 服 务 端 口 )，61-62 
discard CX: SER AE XS L1), 61 
dynamic 〔 动 态 端口 )，51 
echo《〈 问 射 服务 端口 )，61-62, 380 
ephemeral (临时 端口 )，50-S1, 53-54, 87, 99, 101—103, 
111, 120, 122, 245-246, 250, 262, 341, 416, 613, 769, 
772, 779, 915 
mapper, RPC (RPC 端 口 映 射 器 )，102 
mirroring 《端口 镜像 )，787 
numbers (%05), 50-52 
numbers and concurrent server 〔〈 端 口号 与 并 发 服务 器 )， 
52-55 
private CES), 51 
registered〈 经 注册 端口 )，51, 122 
reserved〔 保 留 端 口 )，51-52, 101, 111, 122, 213 
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口 )， 见 POSIX 
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209, 234-235, 252-253, 315, 322, 346, 369, 390, 397, 
411-412, 414—415, 421, 436, 448, 463, 465, 467, 516, 
536, 539, 541, 543, 594, 654, 663—664, 669—670, 679, 
685, 687, 705, 775, 833, 930 
POSIX.1, 685, 919, 950 
definition of (POSIX.13 Y), 26 
POSIX.1b, 26, 950 
POSIX. lc, 26, 676, 950 
POSIX.1g, 27-29 
definition of (POSIX.1gzz X), 27 
POSIX. 1i, 26, 950 
POSIX.2, 26, 28 
Postel, J. B., 34-35, 50-51, 213, 869, 875, 879, 882, 949, 
951-953 
PPP (Point-to-Point Protocol), 55, 497, 808 
pr. cpu, t ime function (pr_cpu_t imei #0), 824, 827 
prefix length 《前 缀 长 度 )，874 
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preforked server (预先 派生 子 进程 的 服务 器 》 
distribution of connections to children, TCP 《TCP 预 先 派 
生子 进程 的 服务 器 中 连接 在 子 进程 中 的 分 布 )， 
830-831, 835 
select function collisions, TCP ( TCPfli/E WET ERE 
的 服务 器 中 的 select 函 数 冲 突 )，831-832 
TCP (TCP 预 先 派生 子 进程 的 服务 器 )，826-842 
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865, 867 
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函数 )，628 
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516, 522, 527 
printf function, calling from signal handler ¢ 从 信号 处 理 
RXPHprintf;$0. 133 
priority band, STREAMS message (优先 级 带 流 消息 ), 183, 
854 
private address 〈 私 用 地 址 )，876 
private port《 私 用 端口 )，51 
proc structure (proc 结 构 )，829 
proc_v4 function (proc v4FÉ ED, 747-749 
proc, v6 function (proc v6FÉ XO. 747, 749-750 
process 《进程 ) 
daemon (守护 进程 )，363-380 
group ID (进程 组 ID)，234-236, 368, 467 
group leader〈 进 程 组 长 》，369 
ID (进程 ID)， 见 PID 
lightweight CÉ&BGIERD, 675 
programming model 《编程 模型 ) 
ILP32 ILP32 编 程 模型 )，28 
LP64 (LP64 编 程 模型 )，28 
promiscuous, mode (WIRI), 555, 787, 790, 792, 
799-800 
protection against wrapped sequence numbers( 针 对 序列 号 
回 绕 的 保护 措施 )， 见 PAWS 
proto structure (proto 结 构 )，743, 745, 755, 757 
protocol (协议 ) 
application 〈 应 用 协议 )，4, 421 
byte-stream 〔〈 字 节 流 协议 )，9, 31, 34, 93, 98, 392, 415, 
435, 661 
dependence (协议 相关 性 )，10, 244 
field, IPv4 (IPv4 协 议 字段 )，871 
independence (协议 无 关 性 )，10-11, 244 
usage by common applications〈 常 见 因特网 应 用 的 协议 
使 用 )，62 
Protocol Independent Interfaces ( 协议 无 关 接 口 )， 见 PII 
protoent structure (protoent 结 构 )，348 
ps program 《ps 程序 )，127, 129, 137 
pselect function (pselect 函 数 )，153, 181-182, 185, 
188, 541, 543, 704 
definition of (pselect HHH), 181 


source code (pselect 函 数 源 代码 )，543 
pseudoheader ( {4 MAB), 216, 738, 806 
Pthread structure (Pthread 结 构 )，687--688 
PTHREAD MUTEX INITIALIZER constant (PTHREAD MUTEX 
INITIALIZER (H), 700, 834, 836 
Pthread_mutex_lock wrapper function, source 
code (Pthread_mutex_lock 包 于 函数 源 代码 )，12 
PTHRFAD PROCESS PRIVATE constant (PTHREAD PROCESS_ 
PRIVATER A), 836 
PTHREAD_PROCESS_SHARED constant (PTHREAD_PROCESS_ 
SHARED MM HO, 835-836 
pthread_attr_t datatype (pthreaG_attr_ 上 数据 类 
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pthread, cond broadcast function (pthread cond, 
broadcast fi #1), 704 
definition of (pthread_cond_broadcast KRGEN), 704 
pthread, cond signal function (pthread cond. 
signal), 704, 847 
definition of (pchread, cond signall OE X), 702 
pthread cond t datatype (pthread cond t MH 
45, 702 
pthread cond timedwait function ( pthread cond. 
Limedwait 函 数 )，704 
definition of (pthread_cond_timedwait HAGE), 704 
pthread cond wait function (pthread cond wait FÉ 
MD. 703-704, 706, 847 
definition of (pthread cond waitrK EE X). 702 
pthread_create function (pthread createP ED, 
676—679, 681, 683, 842 
definition of (pthread createPA MGE X), 677 
pthread, detach function (pthread_detach 函 数 )， 
676-679 
definition of (pthread_detach 函 数 定义 )，678 
pthread exit function ( prhread exit 函数 )， 
676-679 
definition of (pthread_exit KHUEN), 678 
pthread getspecific function ( pthread get- 
specific), 688, 691-693 
definition of (pthread_getspecificH EM), 691 
thread, join function ( pthread_join X, 
676—679, 696, 701, 705—706 
definition of (ptchread join OE X), 677 
pthread, key, create function (pthread key, create 
函数 )，687-688, 690-691 
definition of (pthread key createB AGE X), 690 
pthread key. t datatype (pthread key t 数据 类 
X"), 691 
pthread, mutexattr, t datatype (pthread mutexattr t 
数据 类 型 )，836 
pthread_mutex_init fonction (prhread_mutex_initPA 
X, 700, 836 
pthread mutex lock function (pthread mutex lock 
函数 )，845 
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pthread mutex unlock function ( pthread mutex 
unlock 函 数 )，704, 845 
definition of (pthread mutex unlockPÁMGE X), 700 
pthread, once function (pthread_once 函 数 )，688， 
690-692 
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535, 691 
pthread self function (pthread self 函数 )， 
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pthread setspeciftic function (pthread_setspeci fic 
函数 )，688, 691, 693 
definition of (pthread_set specific), 691 
pthread_t datatype (Pthread 上 数据 类 型 )，677 
«pthread.h» header(<pthread.h> 头 文件 ), 679, 694 
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putchar unlocked function (put char unlocked 
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rsh program (rsh 程 序 )，44, 52, 312,340 
rshà program (rshdf#/¥), 718-719 
RST (reset flag, TCP header), 44, 99-101, 107, 140, 
142-143, 145, 167, 179, 184, 188-189, 200, 202-203, 
207, 236, 256, 462—463, 789, 794, 916, 921, 938 
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RTA_IFA constant 《RTA_IFA 常 值 )，489 
RTA_IFP constant (RTA_IFP 常 值 )，489 
RTA_NETMASK constant (RTA_NETMASK 常 值 )，489 
RTAX AUTHOR constant (RTAX_AUTHOR 常 值 )，489 
RTAX_BRD constant (RTAX_BRD 常 值 )，489 
RTAX DST constant 《RTAX_DST 常 值 )，489 
RTAX GATEWAY constant (RTAX_GATEWAY 常 值 )，489 
RTAX_GENMASK constant (RTAX_GENMASK 常 值 )，489 
RTAX IFA constant (RTAX_IFA 常 值 )，489 
RTAX_IFP constant (RTAX._IFP 常 什 )，489, 506 
RTAX_MAX constant (RTAX_MAX 常 值 )，489, 493 
RTAX_NETMASK constant (RTAX_NETMASK 常 值 )，489 
rtentry structure (rtentry 结 构 )，467, 483 
RTF LLINFO constant (RTF_LLINFO 常 值 )，497-498 
RTM ADD constant (RTM_ADD 常 值 )，487 
RTM CHANGE constant (RTM_CHANGE 常 值 )，487 
RTM DELADDR constant (RTM_DELRADDR 常 值 )，487 
RTM_DELETE constant (RTM_DELETE 常 值 )，487 
RTM DELMADDR constant (RTM_DELMADDR 常 值 )，487 
RTM GET constant (RTM_GET 常 值 )，487, 489—490, 497 
RTM IFANNOUNCE constant (RTM. TFANNOUNCE f ff), 
487 
RTM IFINFO constant (RTM_IFINFO 常 值 )，487, 498, 
502, 505, 508 
RTM, LOCK constant (RTM_LOCK 常 值 )，487 
RTM_LOSING constant (RTM_LOSING 常 值 )，487 
RTM MISS constant (RTM_MISS 常 值 )，487 
RTM, NEWADDR constant (RTM_NEWADDR 常 值 ), 487, 498, 
502 
RTM NEWMADDR constant (RTM_NEWMADDR# ffi), 487 
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RTM REDIRECT constant (RTM REDIRECT?É (E), 487 

RTM RESOLVE constant (RTM_RESOLVE 常 值 )， 487 

rtm addrs member (rtm_addrs 成 员 )，489-490, 
492-493 

rtm type member (rtm typejXk fi), 490 

RTO (retransmission timeout), 598—599, 604, 606—607 

RTP (Real-time Transport Protocol), 575 

RTT (round-trip time), 35, 105—106, 169—170, 209, 220, 237, 
436, 445, 447, 461, 595, 597—608, 620, 742, 745, 
749—750, 762, 923 

RTT RTOCALC macro (RTT_RTOCALCH), 606 

rtt info structure (rtt_info#i#J), 601 

rtt init function (rtt initPÉXK«), 601,606 
source code (rtt_init 函 数 源 代码 )，605 

rtt minmax function (ztt_minmax 函 数 )，606 
source code (rtt_minmax 函 数 源 代码 )，605 

rtt, newpack function (rtt_newpacki 3), 603, 606 
source code (rtt_newpack 函 数 源 代 码 )，606 

rtt start function (rtt_start 函 数 )，603, 607 
source code (rtt_start 函 数 源 代码 )，606 

rtt stop function (rtt_stopMi%#), 604, 607 
source code 〈(rtt_stop 函 数 源 代码 )，607 

rtt timeout function (rtt_timeout Mi), 604, 607 
source code (rtt_timeout 函 数 源 代码 )，607 

rtt ts function (rtt ts, 603-604, 606, 941 
source code (rtt_ts 函 数 源 代 码 )，606 

Rubin, A. D., 108, 711, 948 

RUSAGE CHILDREN constant ( RUSAGE_CHILDREN # 
t), 824 

RUSAGE, SELF constant (RUSAGE_SELF 常 值 ), 824 

Rytina, 1., 36, 267, 280, 285, 952-954 


s6 addr member (s6  addrfEX/A), 71 

SA (security association), 511 

SA macro (SAŻ), 9,71 

s addr member (s addrJX i), 68-69 

s aliases member (s_aliasesMA), 311 

s fixedpt member (s_fixedpt i), 580 

s name member (s name), 311 

s port member (s_port 成 员 )，311 

s proto member (s_proto 成 员 )，311 

SA INTERRUPT constant (SA, INTERRUPT?É (A), 131 

SA RESTART constant (SA_LRESTART# (ff), 131, 134, 
162, 383 

sa data member (sa datajk lA), 70,482,792 

sa family member(sa, familyfk 5i), 70-71, 482, 490, 
494 

sa family t datatype (sa family t+t 数 据 类 型 )，69 

sa handler member (sa_handler 成 员 )，131 

sa len member (sa_len 成 员 )，70, 493-494 

sa_mask member (sa_mask 成 员 )，131-132 

sac_info member (sac_info 成 员 )，282 

SACK (selective acknowledgment), 61 

SADB (security association database), 511 

SADB AALG MD5HMAC constant ( SADB AALG MD5HMAC 常 
W), 518 


SADB AALG NONE constant (SADB  AALG NONE? {È ), 
518 

SADB_AALG_SHA1HMAC constant (SADB AALG SHA1HMAC 
wt), 518 

SADB ACQUIRE constant (SADB_ACQUIRE##({H), 513 

SADB ADD constant (SADB_ADD 常 值 )，513, 519, 522 

SADB DELETE constant (SADB_DELETE 常 值 )，513 

SADB DUMP constant (SADB_DUMP 常 值 )，513 

SADB EALG 3DESCBC constant (SADB_EALG_3DESCBC 常 
tA), 518 

SADB EALG DESCBC constant (SADB EALG  DESCBC 
常 值 )，518 

SADB EALG NONE constant (SADB_EALG_NONE 常 值 )， 
518, 521 

SADB EALG NULL constant (SADB EALG NULLjÉ fÈ), 
518 

SADB EXPIRE constant (SADB_EXPIRE#{A), 513, 523 

SADB EXT ADDRESS DST constant (SADB EXT ADDRESS . 
DST 4H), 514,519, 522 

SADB EXT ADDRESS PROXY constant (SADB EXT ADDRESS 
 PROXYTÉ[ÉD, 514,519 

SADB EXT ADDRESS SRC constant (SADB EXT ADDRESS . 
SRCH), 514,519, 522 

SADB EXT IDENTITY DSTconstant(SADB EXT IDENTITY _ 
DST 常 值 )，514 

SADB EXT IDENTITY SRCconstant (SADB EXT IDENTITY 
—SROM RD, 514 

SADB EXT KEY AUTH constant (SADB EXT ' KEY AUTHÓÉ 
4H), 514,519, 522 

SADB EXT KEY ENCRYPT constant (SADB EXT KEY. 
ENCRYPT% fH), 514,519 

SADB_EXT_LIFETIME_CURRENT constant (SADB_EXT_ 
LIFETIME CURRENT?ÉÍH), 514 

SADB EXT LIFETIME HARD constant (SADB EXT. 
LIFETIME_HARD 常 值 )，514 

SADB EXT LIFETIME SOFT constant (SADB EXT 
LIFETIME_SOFT 常 值 )，514 

SADB_EXT_PROPOSAL constant (SADB EXT PROPOSAL 
常 值 )，514 

SADB EXT SA constant (SADB_EXT_SA 常 值 )，514 

SADB EXT SENSITIVITY constant (SADB EXT SEN- 
SITIVITY 常 值 )，514 

SADB EXT SPIRANGE constant (SADB EXT SPIRANGE 常 
fi), 514 

SADB EXT SUPPORTED AUTH constant (SADB EXT 
SUPPORTED AUTH?$41H), 514 

SADB EXT SUPPORTED ENCRYPT constant (SADB EXT 
SUPPORTED ENCRYPT?7É (M), 514 

SADB FLUSH constant (SADB_FLUSH 常 值 )，513 

SADB GET constant (SADB_GET 常 值 )，513 

SADB GETSPI constant (SADB_GETSPI 常 值 )，513 

SADB LIFETIME CURRENT constant (SADB LIFETIME 
CURRENT? (È), 523 

SADB LIFETIME HARD constant (SADB LIFETIME HARD 
WH), 523 

SADB_LIFETIME_SOFT constant (SADB LIFETIME SOFT 
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常 值 )，523 

SADB REGISTER constant (SADB_REGISTER 常 值 )， 
513 

SADB SAFLAGS, PFS constant (SADB SAFLAGS PFS 
WH), 519 


SADB SASTATE DEAD constant (SADB SASTATE DEAD 
TED. S18 

SADB SASTATE DYING constant (SADB SASTATE, DYING 
WH), 518 

SADB SASTATE LARVAL constant (SADB SASTATE_LARVAL 
常 值 )，518 

SADB SASTATE MATURE constant ( SADB_SASTATE_ 
MATURETW HN), 518,521 

SADB  SATYPE AH constant (SADB, SATYPE AH? fi. 
513-514 

SADB, SATYPE ESP constant (SADB SATYPE, ESP?É 
fl», 513-514, 524 

SADB SATYPE MIP constant (SADB SATYPE MIPJ7É 
fH), 513 

SADB SATYPE OSPFV2 constant (SADB SATYPE OSPFV27É 
t), 513 

SADB SATYPE RIPV2 constant (SADB SATYPE RIPV27É 
1i), 513-514 

SADB SATYPE RSVP constant (SADB SATYPE RSVP 
AED. 513 

SADB UPDATE constant (SADB_UPDATE 常 值 )，513 

sadb_address structure (sadb_address#if4), 514, 
519 
definition of (sadb_address 结 构 定义 )，519 


sadb address exttype member ( sadb address 


exttypeA A), 519 

sadb_address_len member (sadb address len 
RR), 519 

sadb address prefixlen member (sadb address 

prefixlend ñ), 519 

sadb address proto member (sadb address proto/k 
R), 519 


sadb address reserved member ( sadb address. 


reserved A), 519 

sadb_alg structure (sadb_ala###J), 524 
definition of (sadb_alg 结 构 定义 )，524 

sadb alg id member (sadb_alg_iG 成 员 )，524 

sadb_alg_ivlen member (sadb_alg_ivlen 成 员 )， 
S24 

sadb_alg_maxbits member (sadb alg maxbits 
成 员 )，524 

Sadb alg minbits member (sadb alg minbits 
成 员 )，524 

sadb dump function (sadb_dumpmi%), 516 

sadb ident structure (sadb_ident4i#J), 514 

sadb key structure (sadb_key##J), 514,519 
definition of (saGb_xey 结 构 定 义 )，519 

sadb key bits member (sadb_key_bits 成 员 )， 
519 

sadb key exttype member (sadb key exttype 
RRA), 519 


sadb_key_len member (sadb_key_len 成 员 )，519 

sadb lifetime structure (sadb_1lifetime 结 构 ), 
514 
definition of (sadb 1ifetimeZüfgiE X), 523 

sadb lifetime addtime member ( sadb lifetime 
adGtime 成 员 )，523 

sadb lifetime allocations member (sadb lifetime 
allocations A), 523 

sadb lifetime bytes member (sadb lifetime bytes 
RAR), 523 

sadb lifetime exttype member (sadb lifetime. 
exttypem i), 523 

sadb lifetime len member(sadb lifetime len 
BR, 523 

sadb lifetime usetime member (sado lifetime 
usetime 成 员 )，523 

sadb_msg structure (sadb_msg 结 构 )，512 
definition of (sadb_msg 结 构 定义 )，513 

sadb_msg_errno member (sadb_msg_errno 成 员 )， 
513 

sadb msg, len member (sadb_msg_lenik i), 513, 
521 

sadb msg pid member (sadb msg pidlk A), 513 

sadb msg reserved member(sadb msg reserved 
READ. 513 

sadb msg satype member (sadb msg. satype jk 
BR), 513 

sadb msg seq member (sadb msg seq), 513 

Sadb msg type member (sadb_msg_typem A), 
512-513 

sadb msg version member (sadb msg version 
RE, 513 

sadb prop structure (sadb_prop#i#4}), 514 

sadb_sa structure (sadb saf$fg), 514,517 
definition of (sadb sa£ifgiE X.), 518 

sadb sa auth member (sadb sa auth), 518 

sadb sa encrypt member (sadb sa encrypt fk 
50, 518 

sadb sa exttype member (sadb sa exttype |] 
BD, 518 

Ssadb sa flags member (sadb sa, flagsJk i), 
518 

sadb sa len member (sadb sa lenk/), 518 

sadb sa, replay member (sadb_sa_replaymA), 
518 

sadb sa reply member (sadb_sa_reply 成 员 )， 
518 

sadb sa spi member (sadb sa spiJK5i), 518, 521 

sadb sa state member (sadb_sa_state 成 员 )， 
518 

Sadb sens structure (sadb_sens 结 构 )，514 

sadb spirange structure (sadb_spirange 结 构 )， 
514 

sadb. supported structure (saGb_supported 结 构 )， 
514, 524 
definition of (sadb_supported 结 构 定义 )，524 
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sado supported exttype member ( sadb_supported_ 
exttypelk fi), 524 
sadb supported len member (sadb supported len 
MAD, 524 
Salus, P. H., 30, 953 
sanity check (EH 4€ Ko fr), 536 
SAP (Session Announcement Protocol), 571, 573-574 
sasoc asocmaxrxt member (sasoc asocmaxrxt 
WU), 222-223, 639 
sasoc assoc id member (sasoc, assoc idfk f), 
222-223 
sasoc cookie life member(sasoc cookie life 
MA), 222-223 
sasoc, local rwnd member (sasoc, local rwnd 
RE), 222-223 
sasoc number peer destinations member (sasoc . 
number peer destinations A), 222-223 
sasoc peer rwnd member ( sasoc_peer_rwnd AÈ 
fA), 222-223 
scatter read (分 散 读 )，389 
scheduling latency (调度 延迟 )，162 
Schimmel, C., 830, 953 
Schwartz, A., 15, 949 
Schwarzbauer, H., 36, 267, 280, 952, 954 
SCM_CREDS socket option (SCM_CREDS 套 接 字 选 项 )， 
395 
ancillary data, picture of ( SCM_CREDS 套 接 字 选 项 作为 畏 
助 数据 的 图 示 )，397 
SCM_RIGHTS socket option (SCM_RIGHTS 套 接 字 选项 )， 
395 
ancillary data, picture of (SCM_RIGHTS 套 接 字 选项 作为 
辅助 数据 的 图 示 )，397 
scope CIE) 
admin-local multicast 〈 管 区 局 部 多 播 范围 )，552 
” continent-local multicas (大 洲 局 部 多 部 范围 ) t, 552 
global multicast〈 全 球 多 播 范围 )，552-553 
global unicast (全 球 单 播 范 围 )，878 
interface-local multicast〈 接 口 局 部 多 播 范围 )，552-553 
link-local multicast《〈 链 路 局 部 多 播 范 围 )，5S2-553 
link-local unicast〈 链 路 局 部 单 播 范围 )，881 
multicast ( 多 播 范围 )，360, 552-553 
organization-local multicast (组 织 结构 局 部 多 播 范 围 )， 
552-553 
region-local multicast《 地 区 局 部 多 播 范 围 )，552 
site-local multicast〔( 网 点 局 部 多 播 范围 )，552-553 
site-local unicast〈 网 点 局 部 单 播 范围 )，881 
—SC OPEN MAX constant (_SC_OPEN_MAX 常 值 )，186 
script program (script 程 序 )，699 
SCTP (Stream Control Transmission Protocol), 33, 36-37 
address information (SCTP 地 址 信息 )，631-635 
association autoclose (SCTP 关 联 自动 关闭 )，621-622 
connection establishment (SCTP 连 接 建立 )，44-50 
connection termination (SCTP 连 接 终止 )，44-50 
four-way handshake (SCTP 四 路 握手 )，45-46 
heartbeat mechanism (SCTP 心 搏 机 制 )，636-637 
implementation, KAME (KAME SCTP 实 现 )，299 


interface model, converting (SCTP 接 口 模型 转换 )， 
637-639 
interface model, one-to-many 一 到 多 SCTP 接 口 模型 )， 
270-272 
interface model, one-to-one (一 到 一 SCTP 接 口 模型 )， 
269-270 
interface models (SCTP 接 口 模型 )，268-272 
introduction, TCP, UDP, and (TCP、UDP 与 SCTP 简 介 )， 
31-64 
notifications (SCTP3 AI), 625-629 
output (SCTP 输 出 )，60-61 
partial delivery 《SCTP 部 分 递送 )，622-625 
performance tuning (SCTP 性 能 调整 )，639-641 
socket (SCTP 套 接 字 )，267-286, 621-643 
socket option (SCTP 套 接 字 选项 )，222-233 
state transition diagram (SCTP 状 态 转换 图 )，47-49 
unordered data (SCTP 无 序 的 数据 )，629 
versus TCP (SCTP 与 TCP 对 比 )，641-642 
watching the packets 《SCTP 观 察 分 组 )，49 
SCTP_ACTIVE constant (SCTP_ACTIVE 常 值 )，227 
SCTP ADAPTION INDICATION constant (SCTP ADAPTION . 
INDICATION W[H), 285 
SCTP ADAPTION LAYER socket option (SCTP. ADAPTION 
LAYER 套 接 字 选项 )，194, 222, 285 
SCTP ADDR, ADDED constant ( SCTP_ADDR_ADDED 常 
tH), 283 
SCTP ADDR AVAILABLE constant(SCTP ADDR AVAILABLE 
常 值 )，283 
SCTP ADDR CONFIRMED constant (SCTP_ADDR_CONFIRMED 
ÈD), 283 
SCTP ADDR MADE PRIMconstant(SCTP ADDR MADE PRIM 
T. 283 
SCTP ADDR REMOVED constant (SCTP ADDR REMOVED) 
值 )，283 
SCTP ADDR UNCONFIRMED constant ( SCTP_ADDR_ 
UNCONFIRMED?ÉÍÉ), 227 
SCTP ADDR UNREACHABLE constant ( SCTP_ADDR_ 
UNREACHABLE {i ), 283 
SCTP ASSOC CHANGE constant (SCTP_ASSOC_CHANGE 
TD. 281 
SCTP ASSOCINFO socket option ( SCTP_ASSOCINFO 
套 接 字 选项 )，222--223 
SCTP AUTOCLOSE socket option ( SCTP, AUTOCLOSE 
套 接 字 选 项 )，194, 223, 622 
SCTP BINDX ADD ADDR constant ( SCTP BINDX ADD. 
ADDR 常 值 )，273--274 
SCTP BINDX REM ADDR constant ( SCTP BINDX REM. 
ADDR?É(HO, 273-274 
SCTP CANT. STR ASSOC constant (SCTP CANT. STR, ASSOC 
常 值 )，282 
SCTP CLOSED constant (SCTP_CLOSED 常 值 )，233 
SCTP COMM, LOST constant (SCTP_COMM_LOST 常 值 )， 
282 
SCTP_COMM_UP constant (SCTP_COMM_UP 常 值 ), 281, 633 
SCTP_COOKIE_ECHOED constant (SCTP_COOKIE_ECHOED# 
fii), 233 
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SCTP. COOKIE WAIT constant (SCTP COOKIE WAIT 
常 值 )，233 

SCTP DATA SENT constant (SCTP_DATA_SENT 常 值 )， 
284 

SCTP DATA UNSENT constant (SCTP DATA, UNSENT 
常 值 )，284 

SCTP DEFAULT SEND PARAM socket option ( SCTP_ 
DEFAULT_SEND_PARAM 套 接 字 选项 )，194, 224-225 

SCTP DISABLE FRAGMENTS socket option ( SCTP_ 
DISABLE_FRAGMENTS 套 接 字 选项 )，194, 225 

SCTP ESTABLISHED constant (SCTP ESTABLISHED 
MH), 233 

SCTP. EVENTS socket option ( SCTP. EVENTSTEHEZ JE 
Wi), 194, 225-226, 271, 277, 280-281 

SCTP GET PEER ADDR INFO socket option (SCTP 
GET PEER ADDR INFO ft iE F IM), 194, 222, 
226-227 

SCTP INACTIVE constant (SCTP_INACTIVE 常 值 )， 
227 

SCTP INITMSG socket option (SCTP_INITMSG 套 接 字 
选项 )，194, 228 

SCTP ISSUE HB constant (SCTP ISSUE HB/jf {É ), 
230, 636—637 

SCTP I WANT MAPPED V4, ADDR socket option 
(SCTP I WANT MAPPED V4 ADDRZÍEHSE T HE HD, 
194, 227 

SCTP MAXBURST socket option (SCTP_MAXBURST 套 接 
FIRM), 194, 228 

SCTP_MAXSEG socket option (SCTP. MAXSEGÁETE T 3k 
JW, 57,194, 229, 233, 236, 269, 928 

SCTP NODELAY socket option (SCTP_NODELAY 套 接 字 
选项 )，194, 229, 236, 269, 928 

SCTP. NO HB constant ( SCTP NO HB íi), 230, 
636—637 

SCTP PARTIAL DELIVERY ABORTED constant (SCTP . 
PARTIAL DELIVERY ABORTED?S[H), 286 

SCTP PARTIAL DELIVERY EVENT constant (SCTP 
PARTIAL_DELIVERY_EVENT# fii), 285 

SCTP_PEER_ADDR_CHANGE constant (SCTP_PEER_ADDR_ 
CHANGE? (A), 282 

SCTP_PEER_ADDR_PARAMS socket option (SCTP_PEER_ 
ADDR_PARAMS 套 接 字 选 项 )，194, 222, 229-230, 635 

SCTP PRIMARY ADDR socket option (SCTP PRIMARY ADDR 
套 接 字 选 项 )，194, 222, 230 

SCTP REMOTE ERROR constant (SCTP REMOTE, ERROR Jf 
fH», 283 

SCTP_RESTART constant (SCTP_RESTART#{H), 282, 
633 

SCTP_RTOINFO socket option (SCTP_RTOINFO 套 接 字 
选项 )，194, 222, 230-231 

SCTP_SEND_FAILED constant (SCTP SEND FAILED 
常 值 )，284 

SCTP SET PEER ADDR PARAMS socket option (SCTP_ 
SET PEER ADDR PARAMSÍEH: PM), 201 

SCTP. SET PEER PRIMARY ADDR socket option (SCTP_ 
SET_PEER_PRIMARY_ADDR 套 接 字 选项 )，194, 231-32 


SCTP_SHUTDOWN_ACK_SENT constant ( SCTP_SHUTDOWN_ 
ACK SENTO. 233 

SCTP SHUTDOWN COMP constant (SCTP SHUTDOWN COMP 
TED, 282 

SCTP. SHUTDOWN EVENT constant (SCTP SHUTDOWN, EVENT 
WH), 284 


+ SCTP SHUTDOWN PENDING constant ( SCTP SHUTDOWN . 


PENDING 常 值 )，233 

SCTP_SHUTDOWN_RECEIVED constant (SCTP_ SHUTDOWN_ 
RECEIVED% fH), 233 

SCTP SHUTDOWN SENT constant (SCTP SHUTDOWN SENT 
RA), 233 

SCTP_STATUS socket option (SCTP. STATUSAdE HE: i6 
MH, 194, 222, 232-233, 278, 290 

Sctp adaption event structure, definition of (sctp_ 
adaption_event 结 构 定义 )，285 

sctp_adaption_layer_event member (sctp adaption . 
layer eventi 5i), 226 

Sctp address event member (sctp address event 
RA), 226 

Sctp assoc change structure, definition of ( sctp_ 
assoc, changeZMjsg X.), 281 

Sctp association event member (sctp association. 
event 5i), 226 

Sctp assocparams structure ( sctp_assocparams 
结构 )，222 
definition of (sctp_assocparams 结 构 定 义 )，222 

sctp_assoc_t datatype (sctp_assoc_t 数 据 类 型 )， 
271 

Sctp bind arg list function (sctp bind arg list 
%), 630-631 

sctp_bindx function (sctp_bindx%#), 272-274, 
286, 630-631 
definition of (sctp_bindx 函 数 定义 )，272 

Sctp connectx function (sctp connectxiHi* f), 
274, 286 
definition of (sctp_connectx 函 数 定义 )，274 

Sctp data io event member(sctp data io event 
成 员 )，226, 271, 277, 280, 288 

Sctp event, subscribe structure ( sctp. event . 
subscribe44#J), 225-226 
definition of (sctp. event, subscribefáfjzE Y), 226 

Sctp freeladdrs function (sctp_freeladdrs iK 
€, 276,633 
definition of (sctp_freeladdrsM Mi X), 276 

Sctp freepaddrs function (sctp_freepaddrs Hi 
WO, 275,633 
definition of (sctp_freepaddrsH MEM), 275 

sctp_getladdrs function (sctp_getladdrs 函 数 )， 
275-276, 286, 633-634 
definition of (sctp_getladdrs 函 数 定义 )，275 

Sctp get no strms function (sctp get no strmsifi 
30, 290 

sctp_getpaddrs function (sctp_getpaddrs#%), 
275, 286, 633-634 
definition of (sctp_getpaddrsM& X), 275 
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Sctp initmsg structure (sctp, initmsgZif3), 228, 
299 
definition of (sctp initmsgf&fjsE X.), 228 

Sctp notification structure, definition of ( sctp_ 
notification 结 构 定 义 )，281 

Sctp opt info function (sctp_opt_infom%), 
222, 225-226, 230, 232, 278, 635 

Sctp paddr change structure, definition of (sctp paddr | 
change 结 构 定 义 )，283 

sctp_paddrin fo structure (sctp_paddrinfo 结 构 )， 
226 
definition of (sctp_paddrinfo 结 构 定 义 )，226 

Sctp. paddrparams structure (sctp_paddrparams 
结构 )，229, 637 
definition of (sctp_paddrparams 结 构 定 义 )，229 

Sctp partial delivery event member ( sctp_ 
partial delivery, event/Jk A), 226 

Sctp pdapi event structure, definition of (sctp pdapi . 
event 结 构 定 义 )，286 

Sctp peeloff function ( sctp. peeloff A), 
271-272, 286, 638-639, 643, 926-927 

sctp_peer_error_event member (sctp_peer_error_ 
event AK St), 226 

sctp_print_addresses function ( sctp_print_ 
addresses), 633-634 

Sctp recvmsg function ( sctp recvmsg Ñ X, 
224—225, 271, 277, 280, 285—286, 288, 623, 927 

Sctp remote error structure, definition of(sctp remote | 
error 结 构 定 义 )，283 

sctp_rtoinfo structure (sctp_rtoinfo 结 构 )，230 
definition of (sctp_rtoinfo 结 构 定 义 )，231 

sctp_send_failed structure, definition of (sctp_send_ 
failed 结 构 定义 )，284 

Sctp send failure event 
failure event/k ii), 226 

Sctp sendmsg function ( sctp_sendmsa PH &), 
224-225, 271, 276-277, 286, 288, 293, 295, 298, 301, 
927 
definition of (sccp. sendmsg?R GE X.), 276 

Sctp sendto function (sctp_sendtoM), 271 

Sctp setpeerprim structure (sctp setpeerprim 
结构 )，231 
definition of (sctp_setpeerprim 结 构 定 义 )，23] 

sctp_setprim structure (sctp_setprim 结 构 )， 
230 
definition of (sctp_setprim 结 构 定义 )，230 

Sctp shutdown event member ( sctp_shutdown_ 
event 成 员 )，226 

Sctp shutdown event structure, definition of ( sctp_ 
shutdown event 4# HJE X.), 285 

Sctp sndrcvinfo structure (sctp sndrcvinfo£ 
Mj), 224-225, 271, 277, 280, 288, 290, 292, 300, 642 
definition of (sctp_sndrcvinfo 结 构 定义 )，224 

sctp_status structure (sctp_status 结 构 )，232 
definition of (sctp_status 结 构 定 义 )，232 

Sctp tlv structure, definition of(sctp_tlv 结 构 定 义 )， 


member ( sctp send. 


280 
Sctpstr cli function (sctpstr_clim%&), 290, 294, 
629, 632 
sctpstr cli, echoall function (sctpstr_cli_echoall 
PAX), 290,294 
sdl alen member (sdl alenAX f), 486, 502, 939 
Sdl data member (sdl datafk/1), 486-487 
sdl. family member (sdl, family), 486 
sdl index member (sdl :ndex/J bi), 486 
Sdl, len member (sdl len it), 486, 509 
sdl nien member (sdl_nlen 成 员 )，486, 502, 939 
sdl_slen member (sdl_slen 成 员 )，486 
sdl type member (sdl_type 成 员 )，486 
SDP (Session Description Protocol), 571, 573-575 
sdr program (sdr##J¥), 571 
secure shell (安全 shell)， 见 SSH 
security, association (安全 关联 )， 见 SA 
association database (安全 关联 数据 库 )， 见 SADB 
association database, dumping (倾泻 安全 关联 数据 库 )， 
514-517 
association, dynamic (2/j dx PK), 524-528 
association, static (AZAK), 517-523 
parameters index 〈 安 全 参数 索引 )， 见 SPI 
policy database〈 安 全 策略 数据 库 )， 见 SPDB 
SEEK SET constant (SEEK_SET 常 值 )，834 
segleft member (segleft 成 员 )，727 
segment, TCP 《TCP 分 节 )，35 
select function (select 函数 )，76, 91, 134-135, 
141-142, 145, 151, 153-154, 156-157, 160-169, 
171-175, 177-185, 188-189, 199, 201—202, 209-210, 
248, 262-263, 320, 364, 373, 375-377, 381-382, 385, 
400, 402-406, 408—409, 437, 439-440, 445-446, 
448-449, 451—452, 456-459, 461—463, 545, 547, 587, 
606, 612, 614, 620, 647-648, 651-652, 655, 657, 
661—662, 679, 694, 704, 770, 773-774, 777, 780, 817, 
819, 831—832, 838, 841, 850, 919, 924, 938-939, 941 
collisions, TCP preforked server(TCP 预 先 派生 子 进程 服 
务 器 的 select 函 数 冲突 )，831-832 
definition of ( select 函数 定义 )，161 
maximum number of descriptors (select 函 数 最 大 描述 
符 数 目 )，166-167 
TCP and UDP server (TCP 与 UDP 服务 器 的 select 函 
数 )，262-264 
when is a descriptor ready (select 函 数 描述 字 就 绪 条 
件 )，164-166 
selective acknowledgment (选择 性 确认 )， 见 SACK 
send function (send? 4), 199, 210, 241, 252, 269, 271, 
381, 387—389, 391, 395, 399, 408, 432, 435, 646, 648, 
660, 662, 736—737, 936 
definition of (send 函 数 定义 )，387 
send all function (send_al1 函 数 )，S77 
send dns. query function (send dns, querytfi iO, 
803, 812, 814 
send v4 function (send_v4®%%&), 752,754 
send, v6 function (send, v6PRYO, 752, 754 
sendmail program (sendmailfi/f), 349,363,377 
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sendmsg function senómsgqifi KK), 68, 76, 199, 210, 218, 
225, 241, 269, 271, 276-277, 282, 300, 381, 389-395, 
408, 420-421, 427—430, 435, 588, 601, 603, 615—617, 
722, 727, 730—733, 737, 928 
definition of (sendmsg 函 数 定 义 )，390 

sendto function (sendato 函 数 )，68，74，199，210， 
239-241, 243-245, 249-250, 252-253, 255 256, 
264-265, 269, 271, 307, 317, 319, 335, 337, 356, 
358-359, 382, 390-391, 395, 408, 415, 419, 435, 532, 
535-536, 576-577, 599, 601, 611, 669, 736—737, 761, 
806, 925 
definition of (sendto 函 数 定义 )，240 

SEQ number member (SEQ_number 成 员 )，865 

sequence number, UDP (UDP 序列 号 )，597 

Sequenced Packet Exchange (有 序 的 分 组 交换 )， 见 SPX 

Serial Line Internet Protocol ( 串 行 线 网 际 网 协议 )， 见 
SLIP 

SERV_MAX_SCTP_STRM constant (SERV_MAX_SCTP_STRM 常 
值 )，294 

SERV. PORT constant (SERV_PORT 常 值 )，122, 125, 189, 
242, 288, 599, 608 
definition of (SERV._PORT 常 值 定义 )，902 

servent structure (servent 结 构 )，311, 348 
definition of (servent 结 构 定义 )，311 

server《 服 务 器 ) 
concurrent《 并 发 服务 器 )，15, 114-116 
iterative (和 迭代 服务 器 )，15, 114, 243, 821-822 
name〔 名 字 服 务 器 )，305 
not running, UDP (UDP 服务 器 进程 未 运行 )，248-249 
preforked (预先 派生 子 进程 的 服务 器 )，826 
prethreaded (预先 创建 线程 的 服务 器 )，844 
processing time (服务 器 处 理 时 间 )， 见 SPT 

Services, Differentiated (区 分 服务 )，870-871 

services, standard Internet (标准 因特网 服务 )，61-62, 377, 
893 

Session Announcement Protocol (会 话 声 明 协 议 )， 见 
SAP 

session announcements, IP Multicast (IP £ HA i5 j5 81) 
Infrastructure (IP 多 播 基础 设施 会 话 声明 )，571-575 

Session Description Protocol (会 话 描述 协议 )， 见 SDP 

session leader (会 话 头 进程 )，369 

session, multicast 〈 多 播 会 话 )，553 
SSM multicast (SSM 多 播 会 话 )，559 

setgid function (set.giaHR EK, 373 

setrlimit function (set rlimitPA EQ), 189,919 

setsid function (setsidPÉ S, 369,379 

setsockopt function (setsockopt MM), 191-194, 
202, 218, 222, 230, 386, 554, 559, 567—570, 710-714, 
717—719, 728, 733, 740, 761, 921, 945 
definition of (setsockopt 函数 )，192 

setuid function (setuigd 函 数 )，373, 746, 799 

set-user-ID (SUID), 422, 742, 746, 799 

setvbuf function (setvbufP E, 402 

Shah, H., 285, 953 

shallow copy (ÈRES fil), 321 

Sharp, C., 36, 267, 280, 952, 954 


SHUT. RD constant (SHUT. RD? (fi), 173, 189, 213, 279, 
495, 901 
SHUT RDWR constant (SHUT_RDWR 常 值 )，173, 189, 280, 
901,919 
SHUT WR constant (SHUT_WR 常 值 )，173, 175, 205, 279, 
901,919 
shutdown function (shutdown Z4), 39, 117, 120, 
171-173, 175, 188-189, 205-206, 213, 267, 278-279, 
282, 401, 439, 446, 464, 495, 681, 819, 919, 938 
definition of (shutdown KKE), 173 
shutdown of server host〈 服 务 器 主机 关机 )，145 
SHUTDOWN-ACK-SENT state (SHUTDOWN-ACK-SENT 状 
a), 48 
SHUTDOWN-PENDING state ( SHUTDOWN-PENDING 状 
a), 47-48 
SHUTDOWN-RECEIVED state (SHUTDOWN-RECEIVED 状 
Æ), 47-48 
SHUTDOWN-SENT state (SHUTDOWN-SENTIRA ), 
48 
SIG. DFL constant (SIG_DFL 常 值 )，129--130, 935 
SIG_IGN constant (SIG_IGN 常 值 )，129-130, 133, 143 
sig_alrm function(sig_alrmbi%&), 601, 752, 759, 765, 
803 
sig chid function(sig_chld 函 数 ), 133, 138, 263, 823 
sigaction function (sigaction/B ED, 129-132, 158 
sigaction structure (sigaction##9), 131 
sigaddset function (sigaddset MM). 541, 669 
SIGALRM signal( STGALRM 信 号 ), 131, 342, 381, 383-384, 
409, 536, 539, 541, 543, 545, 547, 601, 603, 620,.742, 
745, 747, 752, 759, 765, 802-803 
SIGCHLD signal (SIGCHLDÍS 9), 128-130, 132-135, 
137-139, 141, 151, 262, 376—377, 446, 614, 823, 946 
sigemptyset function (sigemptyset MR), 541 
Sigfunc datatype (Sigfunc 数 据 类 型 )，131 
SIGHUP signal (SIGHUP 信 号 )，364, 369-370, 379, 669, 
671-672 
SIGINT signal (SIGINT), 181—182, 257, 370, 823, 
827, 830, 837, 842, 846 
SIGIO signal (SIGIO 信 号 ), 129, 157-158, 200, 234-235, 
467—468, 663-666, 669—672, 895 
TCP and 〈TCP 与 STGIO 信 和 号 )，664-665 
UDP and (UDP 与 STGIO 信 号 )，664 
SIGKILL signal (SIGKILL 信 号 )，129, 145 
siglongjmp function ( siglongjmp i &), 383, 
543-545, 601, 603—604, 620, 802—803 
signal (fi 45), 129-132 
action 〈 信 号 行为 )，129 
blocking 〈 信 号 阻塞 )，131-132，539，5$41，543，545， 
669-671 
catching〈 信 和 号 俘获 )，129 
definition of (信号 定义 )，129 
delivery〈 信 和 号 递交 )，131-133，137，539， 541, 545, 
669—671, 946 
disposition (4&2 4b), 129-130, 133, 143, 676 
generation (45 5 ^E), 541 
handler (信和 号 处 理 函数 )，129, 676 
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mask Cfi 34&83)5, 131, 181—182, 543, 669, 676, 802 
queueing 《信号 排队 )，132, 138, 670-671 

Signal function (Signal 函 数 )，130 

signal function(signal 函 数 )，130-131, 133-134, 137, 
383, 664, 935 
definition of (sional MBUE X), 131 
source code (signal HUH e, 130 

signal-driven UVO( 信 号 驱动 式 JO), 200, 234-235, 663-673 
model (信号 驱动 式 1O 模 型 )，157-158 

SIGPIPE signal( SIGPIPE 信 号 ), 142-143, 152, 165, 202, 
916-917, 938 

SIGPOLL signal (SIGPOLL 信 号 )，129, 663-664 

sigprocmask function (sigprocmask® #0, 132, 541, 
669—670 

sigset jmp function (sigset jmp), 383, 543-545, 
601, 603-604, 620, 802-803, 946 

SIGSTOP signal (SIGSTOP 信 号 )，129 

Sigsuspend function (sigsuspendtA YO, 669 

SIGTERM signal (SIGTERM 信 号 )，145, 446—447, 827, 938 

SIGURG signal (SIGURGH HL), 129-130, 234-235, 467, 
647-649, 651, 655, 657—658, 661-662 

SIGWINCH signal (SIGWINCHÍS 9), 370 

SIIT, 880, 952 

Simple Mail Transfer Protocol (简单 地 件 传送 协议 )， 见 
SMTP 

simple name, DNS (DNS 简 单 名 字 )，303 

Simple Network Management Protocol (简单 网 络 管理 协 
议 )， 见 SNMP 

Simple Network Time Protocol (简单 网 络 时 间 协 议 )， 见 
SNTP 

simultaneous ([&]Itf 
close 《同时 关闭 )，40-41, 48 
connections 〔 同 时 发 起 的 连接 )，452-461 
open《 同 时 打开 )，40-41 

SIN6_LEN constant (SIN6_LEN 常 值 )，69, 71-72 

sin6_addr member(sin6_addr 成 员 ), 71-72, 102, 480 

sin6 family member (sin6_family 成 员 )，71, 254 

sin6 flowinfo member (sin6_flowinfo 成 员 )， 
71-72, 872 

Sin6 len member (sin6_len 成 员 ), 71 

sin6 port member (sin6, port 5, 71,102 

Sin6 scope id member (sin6 scope id /), 
71-72 

sin addr member (sin addr/M f), 68-70, 102, 480 

Sin family member (sin familyJ 51), 68-69, 254 

sin len member (sin_len 成 员 )，68 

Sin port member (sin_port 成 员 )，30, 68-69, 102 

Sin zero member (sin_zero 成 员 )，68-70 

sinfo assoc id member (sinfo assoc_id 成 员 )， 
224-225 

sinfo context member (sinfo_context 成 员 )， 
224 

sinfo_cumtsn member (sinfo_cumtsn 成 员 )，224 

sinfo_flags member (sinfo_flags 成 员 ), 224, 300 

sinfo pid member (sinfo_pid 成 员 )，224 

sinfo ppid member (sinfo_ppiG 成 员 )，224 


sinfo ssn member (sinfo_ssn 成 员 )，224 
sinfo stream member (sinfo_stream 成 员 )，224, 


292 
sinfo timetolive member (sinfo timetolive 
RA), 224,642 


sinfo tsn member (sinfo_tsnkA), 224 

Sinit max attempts member (sinit max attempts 
mii), 228, 639-640 

sinit_max_init_timeo member (sinit max init_ 
timeo 成 员 )，228, 639-640 

sinit, max instreams member (sinit max instreams 
成 员 )，228 

sinit max ostreams member (sinit max ostreams 
成 员 )，299 

sinit_num_ostreams member (sinit num ostreams 成 
员 )，228 

SIOCADDRT constant (SIOCADDRT 常 值 )，467, 483, 485 

SIOCATMARK constant ( SIOCATMARK # ffi), 234, 
465—467, 654 
IOCDARP constant (SIOCDARP#{A), 467, 482 

SIOCDELRT constant (SLOCDELRT#4H), 467, 483, 485 

SIOCGARP constant (SIOCGARP#{H), 467, 482 

SIOCGIFADDR constant (SIOCGIFADDR 常 值 ), 467, 480, 
566, 568 

SIOCGIFBRDADDR constant (SIOCGIFBRDADDRAÉ (fi), 
467, 478, 481, 484 

SIOCGIFCONF constant (SIOCGIFCONF #f tÈ), 234, 
467—469, 474—475, 478, 480, 484, 500, 799 

SIOCGIFDSTADDR constant (SIOCGIFDSTADDR 常 值 )， 
467, 478, 481 

SIOCGIFFLAGS constant (SIOCGIFFLAGS*# fH), 467, 
477, 480, 792 

SIOCGIFMETRIC constant (SIOCGIFMETRIC# ffi), 
467, 481 

SIOCGIFMTU constant (SIOCGIFMTU 常 值 )，538 

SIOCGIFNETMASK constant (SIOCGIFNETMASK 常 值 )， 
467, 481 

SIOCGIFNUM constant 《SIOCGIFNUM 常 值 )，475, 484 

SIOCGPGRP constant (SIOCGPGRP 常 值 )，234, 467—468 

SIOCGSTAMP constant (SIOCGSTAMP 常 值 )，666 

SIOCSARP constant (SIOCSRARP 常 值 )，467, 481 

SIOCSIFADDR constant (SIOCSIFADDR 常 值 ), 467, 480 

SIOCSIFBRDADDR constant (STOCSTFBRDADDR# ffi), 
467, 481 

SIOCSIFDSTADDR constant (SIOCSIFDSTADDR# ffi), 
467, 481 

SIOCSIFFLAGS constant (SIOCSIFFLAGS#{H), 467, 
481, 792 

SIOCSIFMETRIC constant (SIOCSIFMETRIC# (fi), 
467, 481 

SIOCSIFNETMASK constant (SIOCSIFNETMASK 常 值 )， 
467, 48] 

SIOCSPGRP constant (SIOCSPGRP 常 值 )，234, 467—468 

site-local (网 点 局 部 的 
address 《网 点 局 部 地 址 )，881 
multicast scope (网 点 局 部 多 播 范 围 )，552-553 
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unicast scope (网 点 局 部 单 播 范 围 )，881 

size t datatype (size_t 数 据 类 型 )，8, 29 

sizeof operator (sizeof 操 作 符 )，9, 412, 862 

Sklower, K., 315 

sleep function (sleep), 152, 163, 432, 539, 577, 
648, 657, 660, 916, 935 

sleep us function (sleep ust T). 163 

SLIP (Serial Line Internet Protocol), 55, 808 

slow start (A3), 461, 596, 950 

Smith, G. P., 325 

SMTP (Simple Mail Transfer Protocol), 9, 62, 938 

SNA (Systems Network Architecture), 952 

sn header member (sr headerWE/i), 281 

sn type member (sn_type 5), 281 

SNMP (Simple Network Management Protocol), 57, 62, 239, 
496, 597 

snoop program (snoop 程 序 )，896 

snprintf function (snprint fm), 15, 148, 423 

SNTP (Simple Network Time Protocol), 579-584, 951 

sntp_proc function (sntp prociÉ44), 582 

SO ACCEPTCON socket option (SO_ACCEPTCON 套 接 字 
选项 )，924 

SO. ACCEPTCONN socket option (SO ACCEPTCONN£HE 
字 选 项 )，238 

SO ATTACH FILTER socket option (SO ATTACH FILTER 
套 接 字 选 项 )，792 

SO BROADCAST socket option ( SO. BROADCAST&HE T 
选项 )，193, 198-199, 236, 532, 536, 786, 895, 945 

SO, BSDCOMPAT socket option (SO_BSDCOMPAT 套 接 字 
选项 )，249 

SO, DEBUG socket option (SO_DEBUG 套 接 字 选项 )，193， 
198—199, 237, 895, 922 

SO. DONTROUTE socket option (SO_DONTROUTE 套 接 字 
选项 )，193, 198-199, 388, 617, 895 

SO ERROR socket option 《SO_ERROR 套 接 字 选项 )，165， 
193, 199--200, 236, 451 

SO KEEPALIVE socket option (SO_KEEPRALIVE 套 接 字 
选项 )，144-145, 151, 193, 198, 200-202, 236, 238, 895 

SO LINGER socket option (SO_LINGER 套 接 字 选 项 )， 
58, 117, 120, 140, 173, 193, 198, 202-207, 236—237, 282, 
462, 895 

SO OOBINLINE socket option (SO_OOBINLINESH 
XE), 193, 198, 207, 647—648, 654, 656, 662 

SO, RCVBUF socket option (SO_RCVBUF 套 接 字 选项 )， 
38, 193, 198, 207—209, 236, 243, 260, 623, 895, 925 

SO RCVLOWAT socket option (SO_RCVLOWAT 套 接 字 选 
项 )，164, 193, 198, 209-210 

SO. RCVTIMEO socket option (SO. RCVTIMEO4EdE 33k 
Til), 193, 210, 382, 386, 895 

SO REUSEADDR socket option (SO REUSEADDRfE TE^ f£ 
选项 )，103, 193, 203, 210—213, 236-237, 262, 330, 339, 
350, 362, 572, 577, 608, 610, 895, 922, 933 

SO REUSEPORT socket option (SO REUSEPORTÁERET 
选项 )，103, 193-194, 196, 210-213, 237, 895, 922 

SO. SNDBUF socket option (SO, SNDBUFAEHEZ EJ), 
58—60, 193, 198, 207—209, 223, 236, 895, 925 


SO, SNDLOWAT socket option (SO SNDLOWAT4EHET 
JW, 165, 193, 198, 209-210 

SO, SNDTIMEO socket option (SO_SNDTIMEO 套 接 字 选 
项 )，193, 210, 382, 386, 895 

SO_TIMESTAMP socket option (SO_TIMESTRAMP 套 接 字 
选项 )，666 

SO, TYPE socket option( SO_TYPE 套 接 字 选项 ), 193, 198, 
213 

SO_USELOOPBACK socket option ( SO_USELOOPBACK 
套 接 字 选项 )，173, 193, 213, 509 

so error variable (so_errcr 变 量 )，199-200 

so_pgid member (so_pgid 成 员 )，235 

So Socket function (so. socket PAS, 892-893 

So timeo structure (so timeo£ifg), 830 

sock program (sockf#/¥*), 237, 265, 893-895, 925 
options 〈sock 程 序 选 项 )，895 

SOCK_DGRAM constant( SOCK_DGRAM 常 值 ), 97, 213, 242, 
315, 319—320, 414, 791 

SOCK PACKET constant (SOCK_PRACKET 常 值 )，33, 98, 
787, 791—793, 797, 815 

SOCK RAW constant (SOCK_RAW 常 值 )，97, 736, 791 

SOCK, SEQPACKET constant (SOCK_SEQPACKET#{H), 
97-98, 319 

SOCK STREAM constant (SOCK_STREAM 常 值 ), 7, 97-98, 
198, 213, 319—320, 327, 330, 414-415 

Sock bind wild function (sock bind wildPÁXD, 
86-88, 772, 779 
definition of (sock bind wilaÑ0E X), 87 

Sock cmp, addr function (sock_cmp_addr fi t), 
86-88 
definition of (sock_cmp_addr PAH X), 87 

Sock cmp port function (sock cmp port M% ), 
86-88 
definition of (sock_cmp_port MRT X), 87 

Sock get, port function (sock get port P, 
86-88 
definition of (sock_get_port Hi BUHL), 87 

sock_masktop function ( sock masktop 函数 )， 
493-494 

Sock ntop function(sock_ntopM EIL, 86-88, 110, 120, 
331, 340, 350, 482, 593, 933, 935, 941 
definition of (sock_ntop 函 数 定义 )，86 
source code (sock ncopPA Efe», 87 

Sock ntop host function ( sock, ntop, host tK D, 
86-88, 493, 536 
definition of (sock ntop hostPA MGE X), 87 

Sock opts structure (sock opts£ZiMj), 194 

Sock set addr function (sock set addriff), 
86-88, 932 
definition of (sock, set, addriR GE XL), 87 

Sock, set port function (sock set port MM), 
86-88, 761, 932 

definition of (sock_set_port M&M), 87 

Sock set wild function (sock set wild *K, 
88, 581 

definition of (sock sec wilaPR NE X), 87 
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sock str flag function (sock str flagiW $), 
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source code (tcp listen NEN), 331 
tcpdump program (tcpdumpf#/#), 32, 101, 142, 144, 
189, 248, 256-257, 265, 443, 547, 566, 585, 661, 711, 
718, 787, 789, 793, 800, 815, 893, 896-897, 921, 
925-926 
TCP/IP big picture (TCP/IP. BEI), 32-34 
TCP/IP Illustrated, Volume 1, X.TCPv1 
Volume 2, XL TCPv2 
Volume 3, UJ, TCPv3 
TCPv1 (TCP/IP Illustrated, Volume 1), 953 
TCPv2 (TCP/IP Illustrated, Volume 2), 954 
TCPv3 (TCP/IP Illustrated, Volume 3), 953 
Telnet (remote terminal protocol), 61—62, 151, 219-220, 662, 
916 
telnet program (telnetfE/F), 93,350 
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termcap file (termcap 文 件 )，169 
termination of server process〈 服 务 器 进程 终止 )，141-142 
test networks and hosts 〈 测 试 网 络 与 主机 )，22-25 
test programs 《测试 程序 )，896 
test udp function (test_udp 函 数 )，799, 801 
TFTP (Trivial File Transfer Protocol), 57, 62, 213, 253, 587, 
596-597, 613-614 
Thaler, D., 551, 949 
Thomas, M., 28, 216, 397, 719, 732, 738, 744, 936, 953 
Thomas, S., 551, 949 
Thomson, S., 28, 71, 216, 304, 346-347, 361, 504, 949, 954 
thr_join function(thr_joinPA), 695-697, 701, 705 
Thread structure (Thread 结 构 )，844, 846 
thread main function (thread_main 函 数 )，845, 847 
thread, make function (thread makePÉYE), 845, 847 
«thread.h» header (<thread. h> X ff), 694 
threads (££ Fi), 675-707 
argument passing (线程 参数 传递 )，682--685 
attributes〔 线 程 属性 )，677 
detached〔 已 脱离 的 线程 )，678 
ID (HID), 677 
joinable 〈 可 汇合 线程 )，678 
thread-safe 〈 线 程 安全 的 )，86, 92, 346, 685—686, 691, 843 
thread-specific data( 线 程 特 定数 据 ), 92, 343, 346, 686-694 
three-way handshake (三 路 握手 )，37，99，104--109，198， 
208, 252, 256, 383, 436, 448-449, 451, 649, 656, 
717—719, 826, 938 
TCP TCP 三 路 握手 )，37-38 
thundering herd 〈 惊 群 )，830, 834, 846 
Thyagarajan, A., 564, 948 
time (Hfi) 
absolute 〈 绝 对 时 间 )，704 
delta〈 增 量 时 间 )，704 
exceeded, ICMP (ICMP 超 时 错误 )，755, 761, 764, 771, 
883-884 
port〈 流 逝 时 间 获 取 服 务 端口 )，61 
TIME WAIT state(TIME_WAIT 状 态 ), 41, 43-44, 62, 128, 
151, 203, 207, 236-237, 339, 820, 897, 915-916, 921 
time function (上 time 函数 )，14-15 
time program (time 程 序 )，447 
time t datatype (time_t 数 据 类 型 )，182 
timeout (超时) 
BPF, receive (BPF 接 收 超时 )，789 
connect function (connect SHI), 382-383 
recvfrom function with a〈 带 超时 的 recvfrom 函 数 )， 
383-386 
socket( 套 接 字 超 时 )，210, 381-386 
UDP (UDP 超 时 )，597 
timespec structure (timespec 结 构 )，181-182, 405, 
704—705, 903 
definition of (timespec 结 构 定 义 )，181 
timestamp option, TCP 《TCP 时 间 玲 选项 )，39, 219, 950 
timestamp request, ICMP (ICMPHT[B]ERiff;K), 739, 883 
time-to-live《 存 活 时 间 )， 见 TTL 
timeval structure (timeval 结 构 )，161-162, 181-182, 
193, 210, 385-386, 405, 449, 606, 666, 704, 747, 941 


definition of (timeval 结 构 定义 )，161 
timod STREAMS module (timoG 流 模块 )，853, 858 
tirdwr STREAMS module (tirdwr 流 模块 )，853-854 
TLI_error member (TLI_error 成 员 )，862 
TLV (type, length, value), 720 
tmpnam function (tmpnamii Y, 419, 685 
token ring ( 令 牌 环 )，34, 63, 199, 550-551, 914 
Torek, C., 213, 954 
TOS (type-of-service), 215, 870, 883, 948 
total length field, IPv4 CIPvA 4S IJ PR), 870 
Touch, J., 294, 954 
TPI (Transport Provider Interface), 854, 858-868, 954 
tpi bind function (tpi_bind t), 859-860, 863 
tpi close function (tpi, closePA S, 860, 867 
tpi, connect function (tpi. connect PAX, 860, 863 
tpi daytime.h header (tpi, daytime .h3k Xf», 
858 
tpi read function (tpi read? f, 866 
trace.h header (trace. nk), 755 
traceloop function (traceloopH ED, 757, 759, 765 
traceroute program (tracerouteféff), 33, 62, 
214-215, 218, 617, 619 
implementation (traceroutefe F KI), 755-768 
traffic class〔〈 流 通 类 别 )，618, 871 
transaction time《〈 事 务 处 理 时 间 )，595 
transient multicast group《 临 时 多 播 组 );，551 
Transmission Control Protocol (传输 控制 协议 )， 见 TCP 
transport sequence number〔 传 输 序号 )， 见 TSN 
Transport Layer Interface 〈 传 输 层 控制 )， 见 TLI 
Transport Provider Interface 〔 传 输 提 供 者 接口 )， 见 TPI 
Trivial File Transfer Protocol《 简 化 文件 传送 协议 )， 见 
TFTP 
trpt program (trpt 程 序 )，199 
truncation, UDP, datagram (UDP 数据 报 截断 )，594 
truss program (trussFiF*), 892-893 
TRY AGAIN constant (TRY_AGAIN?# Hi), 308 
ts member (ts 成 员 )，809 
TSN (transport sequence number), 224—225 
TTL (time-to-live), 43, 215, 217-218, 552-553, 559, 563, 
566, 575, 749, 755, 757, 159, 761—762, 772, 871, 873, 
883, 886 
ttyname function (ttynameif Y), 685 
ttyname r function (ttyname rrÉSL, 685 
Tuexen, M., 285, 953 
tunnel (fii), 885-889 
automatic ( 自动 形成 的 隧道 )，880 
tv nsec member (tv_nsec 成 员 )，181, 903 
tv sec member (tv, sechE fi), 161-162, 181, 903 
tv sub function (tv_sub 函 数 )，747 
source code 《tv_sub 函 数 源 代码 )，747 
tv usec member (tv_usec 成 员 )，161, 181 
type field, ICMP (ICMP 类 型 字段 )，882 
type, length, value 〈 类 型 、 长 度 、 值 )， 见 TLV 
type-of-service 〈 服 务 类 型 )， 见 TOS 
typo 〈 排 印 或 打字 错误 )，51 
typographical conventions 〈 排 版 约定 )，7 


u_char datatype (u_char 数据 类 型 )，69, 559 
u int datatype (u_int 数 据 类 型 )，69, 559 
u long datatype (u_long 数 据 类 型 )，69 
u_short datatype (u short ZEE), 69 
udata member (udata 成 员 )，405 
UDP (User Datagram Protocol), 33-34 
adding reliability to application (£3 UDPISJ1] A Jr] 4& 
TÉ), 597-608 
and SCTP, introduction, TCP (TCP、UDP 与 SCTP 简 介 )， 
31-64 
and SIGIO signal (UDP 与 STGIO 信 号 )，664 
binding interface address (UDP 捆绑 接口 地 址 ), 608-612 
checksum 《UDP 校 验 和 )，259, 497-499, 753, 793-814 
concurrent server (UDP 并 发 服务 器 )，612-614 
connect function GÉ UDP i connect AH), 252-255 
datagram truncation (UDP 数据 报 截断 )，594 
determining outgoing interface (UDP 确定 外 出 接口 )， 
261-262 
lack of flow control (UDP 缺乏 流 控 )，257-261 
lost datagrams (UDP 和 玉 失 的 数据 报 )，245-246 
output (UDP 输出 )，59-60 
sequence number (UDP 序号 )，597 
server not running (UDP 服务 器 进程 未 运行 )，248-249 
socket (UDP 套 接 字 )，239-265, 587—620 
socket, connected (已 连接 UDP 套 接 字 )，252 
socket receive buffer(UDP 套 接 字 接收 缓冲 [x ), 260-261 
socket, unconnected 〈 未 连接 的 UDP 套 接 字 7)，252 
TCP versus (TCP 与 UDP 对 比 )，594-597 
timeout (UDP 超时 )，597 
verifying received response (UDP 验证 接收 到 的 响应 )， 
246-248 
udp check function (udp_checkM#), 808-809 
udp client function (uap_cliient 函 数 )，334_337， 
572, 577, 580—582, 620, 935, 941 
definition of (uap_client 函 数 定 义 )，334 
source code (udp_client 函数 源 代码 )，335 
udp_connect function (udp_connect 函 数 ), 337, 935 
definition of Cudp connect H&G X), 337 
source code (udp_connect i Uie), 337 
udp read function (udp readPR A, 803, 806, 815 
udp. server function (udGp_server 函 数 )，338-339, 933 
definition of (udp_server 函 数 定义 )，338 
source code (udp_server 函 数 源 代 码 )，338 
udp server reuseaddr function ( udp_ server 
reuseaddr iS), 933 
udp write function (udp_writePi%), 805,814 
udpcksum.h header (udpcksum.h 头 文件 )，795 
udpiphdr structure (udpiphar###J), 805 
ui len member (ui_len 成 员 )，806 
ui. sum member (ui_sum 成 员 )，806 
uinti6 t datatype (uint16_ 上 数据 类 型 )，69 
uint32 t datatype (uint32_ 上 数据 类 型 )，69, 75 
uint8 t datatype (uint8_ 上 数据 类 型 )，68-69 
umask function (umask 函 数 )，414_415 
uname function (uname 函 数 )，577 
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unbuffered standard I/O stream (不 缓冲 的 标准 IO 流 )，402 
unconnected UDP socket (未 连接 的 UDP 套 接 字 )，252 
unicast〔 单 播 ) 
broadcast versus 〈 广 播 与 单 播 对 比 )，532-535 
multicast versus 〈 多 播 与 单 播 对 比 )，553 
scope, global (全球 单 播 范围 )，878 
scope, link-local 〈 链 路 局 部 单 播 范围 )，881 
scope, site-local (网 点 局 部 单 播 范 围 )，881 
uniform resource identifier (统一 资源 标识 符 )， 见 URI 
uniform resource locator 〈 统 一 -资源 定位 符 )， 见 URL 
<unistd.h> header (<unistd.h> 头 文件 )，466, 516 
Unix 95, 27 
Unix 98, 30, 133, 184, 346, 685, 919, 952 
definition of (Unix 定 义 )，27 
Unix domain (Unix 域 》 
differences in socket functions 《Unix 域 在 套 接 字 函 数 上 
的 差异 )，415-416 
socket (Unix 域 套 接 字 )，411-433 
socket address structure (Unix 域 套 接 字 地 址 结构 )， 
412-414 
Unix International (Unix 国 际 )，790, 854, 954 
Unix I/O, definition of (Unix VO X), 399 
/unix service C/unixll£4$), 936 
Unix standard services (Unix 标 准 服务 )，52 
Unix standards (Unix 标 准 )，25-28 
UNIX_error member (UNIX_error 成 员 )，862 
UNIXDG_PATH constant (UNIXDG_PATH 常 值 );，419 
definition of (UNIXDG_PATH 常 值 定义 )，902 
UNIXSTR PATH constant (UNIXSTR_PATH 常 值 )，416 
definition of (UNIXSTR_PATH 常 值 定义 )，902 
Unix-to-Unix Copy 《Unix 到 Unix 复 制 )， 见 UUCP 
Unix Ware, 20, 257 
unlink function (unlinkxk 函 数 ), 413-414, 416, 419, 432, 
771, 834, 935 
unordered data, SCTP 《SCTP 无 序 的 数据 )，629 
unp_in_pktinfo structure (unp_in_pktinfo 结 构 )， 
588, 590, 901 
definition of (unp_in_pktinfo 结 构 定义 )，588 
unp.h header (unp .b 头 文件 )，7-9, 13, 71, 86, 122, 125, 
131, 242, 416, 419, 491, 588, 592, 679, 795, 899-904 
source code (unp .h 头 文件 源 代 码 )，899 
unpicmpd.h header, source code (unpicmpd.h3 Xf 
源 代码 )，771 
unpifi.h header (unpifi.h 头 文件 )，469 
source code (unpifi .hb 头 文件 源 代码 )，471 
unproute.h header (unproute .h 头 文件 )，491 
unprtt.h header (unprtc .h 头 文件 )，601, 604, 606 
source code Cunprtt .h 头 文件 源 代 码 )，604 
unpthread.h header (unpthread.h 头 文件 )，679 
unspecified address 〈 未 指明 地 址 》，876, 881 
URG (urgent pointer flag, TCP header), 646—647, 661 
urgent (CHAM) 
mode, TCP (紧急 模式 ) , 645 
offset, TCP (TCP 紧 急 偏 移 )，646 
pointer flag, TCP header (TCP 首 部 紧急 指针 标志 )， 见 URG 
pointer, TCP (TCP 紧 急 指 针 )，646 
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URI (uniform resource identifier), 575 

URL (uniform resource locator), 947 

User Datagram Protocol〈 用 户 数据 报 协 议 )， 见 UDP 
userID〈 用 户 ID)，350, 374, 429, 431, 676, 746, 759, 799 
UTC (Coordinated Universal Time), 15, 61, 575, 582, 606, 704 
UUCP (Unix-to-Unix Copy), 366 


value-result argument( 值 -结果 参数 ), 74-77, 109-111, 164, 
183, 192, 197, 246, 389, 391, 394, 414, 469, 496, 499, 
590, 710, 717, 856-857, 915, 932 

Varadhan, K., 874, 949 

/var/adm/messages file (/var/adm/messages X 
ft), 379 

/var/log/messages file (/var/log/messages X 
fF», 370 

/var/run/log file (/var/run/logX1t), 364,367 

verifying received response, UDP (UDP 验证 接收 到 的 响 
应 )，246-248 

version number field, IP (1P 版 本 号 字段 )，869, 871 

vi program (vifi), 26 

virtual network (虚拟 网 络 )，885-889 

virtual private network〈 虚 拟 专 用 网 络 )， 见 VPN 

Vixie, P. A., 308, 954 

void datatype (void 数据 类 型 )，9, 70—71, 88, 131, 677, 
679, 681,915 

volatile qualifier (volatile 限 定 词 )，802 

VPN (virtual private network), 22 


wait function (wait SC), 132-133, 135-139, 151, 613, 
820, 827 
definition of (wait 函 数 定义 )，135 
waitpid function (waitpid 函 数 )，132-133, 135-139, 
151, 376, 423, 677-678 
definition of (waitpiqd 函 数 定义 )，135 
wakeup one function (wakeupP_one 函 数 )，830 
WAN (wide area network), 5, 35, 219, 448, 549, 556-558, 
596-597 
wandering duplicate〈 温 游 的 重复 分 组 )，43 
weak end system model 〈 弱 端 系统 模型 )，103, 533, 608, 
666, 916 
definition of 〈 弱 端 系统 模型 定义 )，247 
web. child function (wepb_chil1d 函 数 ), 825, 829, 843, 847 
web client function (web clientH E, 842 
web.h header (web .h 头 文件 )，454 
Webstone benchmark 《Webstone 基 准 测 试 程序 )，820 
well-known 〈 众 所 周知 的 ) 
address〈 众 所 周知 的 地 址 )，52 
multicast group〈 众 所 周知 的 多 播 组 )，551, 571 
port〈 众 所 周知 的 端口 )，50 
WEXITSTATUS constant (WEXITSTATUS 常 值 )，135, 423 
Whelan, E., 571, 949 
wide area network 《J" 域 网 )， 见 WAN 
WIFEXITED constant (WIFEXITED 常 值 )，135 
wildcard address( 通 配 地 址 )，53, 87, 102, 122, 126, 147, 
211, 322, 354-355, 357, 362, 373, 560, 562, 568, 


581—582, 608, 610—611, 772, 779, 876, 881 

window scale option, TCP 《TCP 窗 口 规模 选项 )，38, 208, 950 

window, TCP 《TCP 窗 口 )，35 

Wise, S., 315 

WNOHANG constant (WNOHANG 常 值 )，136, 138 

World Wide Web 万 维 网 )， 见 WWW 

wrapper function (GERO, 11-13 
source code, Listen (Listen 包 于 函数 源 代码 )，107 
source code, Pthread mutex lock (Pthread mutex. 

lock 包 囊 函 数 源 代码 )，12 

source code, Socket (Socket H W p CR (C3), 11 

Wright, G. R., 954 

writable timeo function (writable timeoPAXO, 
385 

write function (writer), 15, 29-30, 58, 60, 88, 117, 
135, 143, 152, 174, 200, 210, 221, 237, 240, 252-253, 
255-256, 269, 271, 337, 344, 381—382, 387, 389-390, 
395, 399, 403, 408, 432, 435, 437, 440, 442, 445, 458, 
492, 495, 509, 648, 660, 665, 736—737, 790, 841, 
854—856, 914, 916, 919, 923, 935, 938, 945 

write, fd function(write_ftd 函 数 ), 427-428, 773, 841 
source code (wrice_fd 函 数 源 代码 )，428 

write get, cmd function (write get, cmáP& *), 
457-459, 697 

writen function (writen XX ), 88-93,- 121, 123, 
125-126, 141—144, 149-151, 168-169, 175, 288, 400, 
437, 458 
definition of (wricen 函 数 )，88 
source code (writen 函 数 源 代码 )，89 

writev function (writevřň%), 210, 221, 237, 381, 
389—391, 395, 408, 435, 601, 737, 924 
definition of (writev 函 数 定义 )，389 

WWW (World Wide Web), 3, 106, 310, 448, 452-461, 818, 
820, 822, 834 


XDR (external data representation), 150 

Xerox Network Systems (Xerox 网 络 系统 )， 见 XNS 

Xie, Q., 36, 46, 49-50, 61, 203, 227, 280, 285, 641, 927, 
953.954 

xinetd program (xinecda##/¥), 377 

XNS (Xerox Network Systems), 28, 98 

XNS (X/Open Networking Services), 27, 952 

X/Open, 27 
Networking Services (X/Open 网 络 服 务 )， 见 XNS 
Portablity Guide (X/Open 可 移植 性 指南 )， 见 XPG 
Transport Interface (X/Open 传输 接口 )， 见 XTI 

XPG (X/Open Portablity Guide), 27 

XTI (X/Open Transport Interface), 27, 29 

yacc program (vacc 程 序 )，26 

Yoakum, J., 36, 952 

Yu, J. Y., 874, 949 


Zhang, L., 36, 44, 280, 950, 954 
zombie (fR7E), 129, 132-134, 137, 139 
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accept getservbyname 311 
getservbyport 312 
bcmp 81 getsockname 118 
bcopy 81 getsockopt 192 
bind 101 gf time 442 
bzero 81 
host serv 325, 326 
close 117 htonl 79 
closelog 367 htons 79 
CMSG xx 397 
connect 99 1CMP6 FILTER xxx 740 
connect nonb 450 if freenameindex 504, 508 
connect timeo 382 if indextoname 504, 506 
if  nameindex 504, 507 
daemon inetd 377 if nametoindex 504, 505 
daemon init 368 IN6 IS ADDR xxx 360 
dg send recv 602 in cksum 753 
inet6 opt xxx 723 
err doit 910 inet6 rth xxx 721 
err, dump 910 inet addr 82 
err msg 910 inet aton 82 
err quit 910 inet ntoa 82 
err ret 910 inet ntop 83 
err sys 910 inet pton 83 
execxxx 113 ioctl 466, 857 
fcntl 235 kevent 405 
fork 111 kqueue 405 
freeaddrinfo 321 
free ifi info 480 listen 104 
gai strerror 321 mcast block source 565 
getaddrinfo 315 mcast get if 565 
gethostbyaddr 310 mcast get loop 565 
gethostbyaddr r 345 mcast get ttl 565 
gethostbyname 307 mcast join 565, 567 
gethostbyname2 347 mcast join, source, group 565 
gethostbyname r 345 mcast leave 565 
get ifi ifno 474,501 mcast leave source group 465 
getipnodebyname 347 mcast set if 565 
getmsg 856 mcast set loop 565, 570 
getnameinfo 340 mcast set ttl 565 
getpeername 118 mcast unblock source 565 
getpmsg 857 memcmp 81 


Memcpy 
memset 


ntohl 
ntohs 


openlog 


poll 

pselect 
pthread cond broadcast 
pthread, cond signal 
pthread cond timedwait 
pthread cond wait 
pthread create 
pthread detach 

pthread exit 

pthread getspecific 
pthread join 
pthread key create 
pthread mutex lock 
pthread mutex unlock 
pthread once 

pthread self 
pthread-setspecific 
putmsg 

putpmsg 


readable timeo 
read fd 
readline 
readn 

readv 

recv 
recvfrom 
recvmsg 

rtt init 
rtt minmax 
rtt, newpack 
rtt start 
rtt stop 
rtt timeout 
rtt ts 


81 


79 
79 


367 


182 
181, 543 
704 
702 
704 
702 
677 
678 
678 
691 
677 
690 
700 
700 
690 
678 
691 
856 
857 


385 
426 
88, 90, 91, 693 
88, 89 
389 
387 
240 
390 





sctp bindx 
sctp connectx 
sctp_freeladdrs 
sctp_freepaddrs 
sctp_getladdrs 
sctp_getpaddrs 
sctp_sendmsg 
select 

send 

sendmsg 

sendto 
setsockopt 
shutdown 

signal 
sockatmark 

SOCk bind wild 
Sock cmp addr 
sock cmp port 
socket 
socketpair 
sockfd_to_family 
sock_get_port 
sock_ntop 
sock_ntop_host 
sock_set_addr 
sock_set_port 
sock_set_wild 
sysctl 

syslog 


tcp_connect 
tcp listen 
tv. sub 


udp. client 
upd connect 
udp, server 


wait 
waitpid 
write fd 
writen 
writev 


274 
276 
275 
275 
275 
276 
161 
387 
390 
240 
192 
173 
130 
654, 654 
87 
87 
87 
96 
414 
119 
87 
86, 87 
87 
87 
87 
87 
496 
365 


326, 327 
330, 331 
7417 


334, 335 
337,337 
338, 338 


135 
135 
428 
88, 89 
389 
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addrinfo 


arpreq 


cmsgcred 
cmsghdr 


group req 


group source req 


hostent 


ifa msghdr 

if announcemsghdr 
ifconf 

ifma msghdr 

if msghdr 

if nameindex 
ifreq 

in6  addr 

in6 pktinfo 

in addr 

iovec 

ip6 mtuinfo 
ip_mreq 
ip_mreq_source 
ipoption 


ipv6 mreq 


kevent 


linger 


msghdr 


pcap pkthdr 
pollfd 


rt_msghdr 


结构 定义 索引 表 


(下 面 所 列 页 码 均 指 页 边栏 中 标注 的 页 码 ) 


315 
481 


429 
396 


560 
562 


307 


488 
488 
469 
488 
488 
504 
469 

71 
616 

68 
389 
619 
560 
562 
714 
560 


405 


202 


390 


809 
183 


488 





sadb address 

sadb alg 

sadb key 

sadb lifetime 
sadb msg 

Sadb sa 

sadb supported 
sctp adaption event 
Sctp assoc change 
Sctp assocparams 
Sctp event subscribe 
sctp initmsg 

sctp notification 
sctp paddr change 
sctp paddrinfo 
sctp_paddrparams 
sctp_pdapi_event 
sctp_remote_error 
sctp_rtoinfo 

sctp send failed 
sctp setpeerprim 
sctp setprim 
sctp shutdown event 
sctp sndrcvinfo 
sctp status 
sctp_tlv 

servent 

sockaddr 
sockaddr_dl 
sockaddr_in 
Sockaddr in6 
Ssockaddr storage 
Sockaddr un 
strbuf 


timespec 
timeval 


unp in pktinfo 


524 
519 
523 
513 
518 
524 
285 
281 
222 
226 
228 
281 
283 
226 
229 
286 
283 
231 
284 
231 
230 
285 
224 
232 
280 
311 

70 
486 

68 

71 

72 
412 
856 


181 
161 
588 


HP-UX 11i 
MacOS/X 10.2.6 rg (HP-UX 11.11) 
(darwin 6.6) PA-RISC 


Power PC 192.6.38.100 





135.197.17.100 


A 12.106.32.254 
/3fte:b60:3:$ad1::2 






FreeBSD 4.8 FreeBSD 5.1 
Intel x86 SPARC 
172.24.37/24 192.168.42/24 
3ffe:b80:1£8d:2/64 
206.168.112.96 
Linux 2.4.7 Solaris 9 
(RedHat 7.2) solaris | (SunOS 5.9) 
Intel x86 SPARC 


192.168.1/24 


用 于 正文 中 大 多 数 示例 的 主机 和 网 络 
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o0000060 


手机 号 码 : (此 为 会 员 编号 ) 
姓 名 : 性 别 : 口 男 口 女 ”出 生年 月 : __ 年 月 
通信 地 址 : 





邮政 编码 : 





电子 邮件 : 





您 购买 的 图 书 是 22840 / 《UNIX 网 络 编程 卷 1: 
(第 3 版 ) 》( 129.00 元 ) 


欢迎 参加 “有 奖 DEBUG” 活 动 。 提 交 本 书 勘误 ， 每 确认 一 处 即 可 获 赠 
积分 5 分 。 详 情 见 图 灵 网 站 。 

请 沿 虚 线 剪 下 此 页 ， 寄 回 图 灵 公 司 ， 即 可 成 为 图 灵 读者 俱乐部 的 一 员 
(复印 无 效 )。 积 分 累计 ， 可 获 赠 书 ( 赠 书 清单 见 图 灵 网 站 ) 。 





邮政 编码 : 100107 m , EA 
通信 地 址 : — 北京 市 朝阳 区 北 苑 路 13 号 院 1 号 楼 C603 - 
北京 图 灵 文 化 发 展 有 限 公司 ”图 灵 读者 俱乐部 
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